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E DOS 时 代 ， 我 写 了 Assembly Language- 
在 Windows 时 代 ， 我 写 了 Windows Programming Using C 和 Visual Basic。 
在 Internet 时 代 ， 我 写 了 HTML. 
写 了 许多 的 书 ， 曾 经 也 想 退 休 …… 但 仍 在 职场 。 
今天 是 Big Data 时 代 ， 我 完成 了 R。 
在 DOS 时 代 ， 我 在 撰写 Assembly Language 时 ， 完 成 了 汇编 语言 语法 以 及 完整 的 DOS 和 BIOS 
应 用 的 相关 写作 ， 我 深 知 ， 这 本 书 是 当时 最 完整 的 汇编 语言 教材 ， 我 的 心情 是 愉快 的 。 
在 Windows 时 代 ， 我 在 撰写 Windows Programming 时 ， 完 成 了 几乎 所 有 Windows 组 件 的 重新 
设计 的 写作 ， 当 初 愉快 的 心情 再 度 涌 上 心头 。 
在 Internet 时 代 ， 我 在 撰写 HTML， 完 成 了 各 类 网 页 功能 的 几乎 所 有 组 件 设计 的 写作 ， 内 心 有 
了 亢奋 。 
现在 是 Big Data 时 代 ， 若 想 进 入 这 个 领域 ，R 可 说 是 最 重要 的 程序 语言 ， 目 前 R 语言 的 参考 
数据 不 多 ， 现 有 几 本 R 语言 教材 均 是 统计 专家 所 撰写 的 ， 内 容 叙 述 在 R 语言 部 分 着 墨 不 多 ， 这 
也 造成 了 目前 大 多 数 人 无 法 完整 学 习 R 语言， 就 进入 Big Data 的 世界 ， 即 使 会 用 R 语言 作 数据 分 
析 ， 对 于 R 的 使 用 也 无 法 全 面 了 解 。 很 多 年 以 来 ， 除 了 软件 改版 的 书 我 不 再 写 新 书 ， 因 缘 ， 我 进 
入 了 这 个 领域 ， 完 成 了 这 本 R 语言 著作 ， 这 本 书 的 最 大 特色 包括 以 下 几 点 。。 
(1 ) 从 无 到 有 一 步 一 步 教 导读 者 R 语言 的 使 用 。 
(2) 学 习 本 书 不 需要 有 统计 基础 ， 但 在 无 形 中 本 书 已 灌输 了 统计 知识 给 你 。 
(3) 完整 讲解 所 有 R 语言 语法 与 使 用 技巧 。 
(4) 丰富 的 程序 实例 与 解说 ， 让 你 事半功倍 。 
坦白 说 ， 当 年 撰写 汇编 语言 时 的 那 种 心情 愉快 亢奋 的 感觉 再 度 涌 上 心头 ， 因 为 我 知道 这 将 是 
目前 R 语言 最 完整 的 教材 。 
最 后 预 祝 读者 们 学 习 顺 利 ! 





| 特别 提示 | 
| 本 书 作者 为 台湾 著名 跨 界 资深 程序 员 ， 虽 然 本 书 经 过 了 较为 细致 的 本 地 化 工作 ， 但 是 仍 有 极 个 别 位 置 | 


| 
| (主要 是 图 片 ) 存在 个 别 葡 体 字 ， 见 该! A j 
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Big Data 的 起 源 


Big Data 一 词 ， 有 人 解释 为 大 数据 ， 
也 有 人 解释 为 巨 量 资 料 ， 其 实 都 OK， 本 
书 则 以 大 数据 为 主要 用 法 。 

2012 年 世界 经 济 论坛 在 瑞士 达 沃 夫 
( Davos ) 有 一 个 主要 议题 “Big Data, Big 
Impact"， 同 年 《纽约 时 报 》(The New 
York Times， 如 右 图 所 示 ) 的 一 篇 文章 ， 
(How Big Data Became So Big》， 清 楚 揭 
露 大 数据 时 代 已 经 降临 ， 它 可 以 用 在 商 本 图 片 取材 自 The New York Times 
业 、 经 济 和 其 他 领域 中 。 


R 语言 之 美 


大 数据 需 处 理 的 数据 是 广泛 的 ， 基 本 上 可 分 成 两 大 类 ， 有 序数 据 与 无 序数 据 ， 对 于 有 序数 
据 ， 目 前 许多 程序 语言 已 可 处 理 。 但 对 于 无 序数 据 ， 例 如 ， 地 理 位 置信 息 Facebook 信息 、 视 频 
数据 等 ， 是 无 法 处 理 的 。 而 R 语言 正 可 以 解决 这 方面 的 问题 ， 自 此 R 已 成 为 有 志 成 为 信息 
( Data Scientist ) 或 大 数据 工程 师 ( Big Data Engineer ) 所 必需 精通 的 计算 机 语言 。 

Google 首席 经 济 学 家 Hal Ronald Varian， 如 右 图 所 示 ， 有 
一 句 经 典 名 言 形容 R。 


The Great beauty of R is that you can modify it to do all sorts 




















of things. And you have a lot of prepackaged stuff that's already 
available, so you're standing on the shoulders of giants. 

大 意 是 ，R 语言 之 美 在 于 ， 你 可 以 通过 修改 很 多 高 手 已 
经 写 好 的 套件 程序 ， 解 决 各 式 各 样 的 问题 。 因 此 ， 当 你 使 用 
R 语言 时 ， 你 已 经 站 在 巨人 的 肩膀 上 了 。 


R 语言 的 起 源 


提 到 R 语言 ,不 得 不 提 John Chambers， 如 下 图 所 示 。 他 是 加 拿 大 多 伦 多 大 学 毕业 ， 然 后 拿 到 
哈佛 大 学 统计 硕士 和 博士 。 





本 图 片 取材 自 Wikipedia 
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John Chambers 在 1976 年 于 Bell 实验 室 工 作 时 ， 为 
了 节省 使 用 SAS 和 SPSS 软件 经 费 ， 以 Fortran 为 基础 ， 
开发 了 S 语 言 。 这 个 S 语 言 主要 是 处 理 ， 向 量 (Vector), 
矩阵 ( Matrix) 、 数 组 ( Array ) 以 及 进行 图 表 和 统计 分 析 
的 ， 初 期 只 是 可 以 在 Bell 实验 室 的 系统 上 运行 ， 随 后 这 
个 S$ 语言 被 移植 至 早期 的 Unix 系统 下 运行 。 然 后 Bell Sc 
验 室 以 很 低 的 廉价 格 授权 各 大 学 使 用 。 

R 语言 主要 是 以 S 语言 为 基础 ， 开 发 完成 。 

1993 年 新 西 兰 University of Auckland 大 学 统计 系 的 
教授 Ross Ihaka 和 Robert Gentleman 两 位 R 先生 ， 分 别 如 
下 图 ( 左 ) 和 下 图 ( 右 ) 所 示 ， 为 了 方便 教授 统计 学 ， John Chambers 本 图 片 取材 自 网 络 
以 S 语 言 为 基础 开发 完成 一 个 程序 语言 ， 因 为 他 两 人 名 
前 级 字 皆 是 R， 于 是 他 们 所 开发 的 语言 就 被 称 为 R 语 
言 ， 其 Logo 如 下 图 (A ) 所 示 。 








Ross Ihaka Robert Gentleman R 语言 标准 Logo 
本 图 片 取材 自 网 络 本 图 片 取材 自 网 络 


现在 的 R 语 言 则 由 一 个 R 核心 开发 团队 负责 ， 当 然 Ross Ihaka 和 Robert Gentleman 是 这 个 开 
发 团队 的 成 员 ， 另 外 ，S 语言 的 开发 者 John Chambers 也 是 这 个 R 语言 开发 团队 的 成 员 。 目 前 这 个 
开发 团队 共有 18 名 成 员 ， 这 些 成 员 拥有 修改 R 核心 代码 的 权限 。 下 列 是 R 语言 开发 的 几 个 有 意 
义 的 时 间 点 。 
1) 1990 年 代 初 期 R 语言 被 开发 。 
2) 1993 年 Ross Ihaka 和 Robert Gentleman 开发 了 R 语言 软件 ,在 S-news 邮件 中 发 表 。 吸 引 了 一 
些 人 关注 并 和 他 们 合作 ， 自 此 一 组 针对 R 的 邮件 被 建立 。 如 果 你 想 了 解 更 多 这 方面 的 信息 可 
参考 下 图 中 的 网 址 。 
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Mailing Lists 


Please read the instructions below and the posting guide before 
sending anything to any mailing list! 


Thanks to Martin Maechler (and ETH Zurich), there are five 
general mailing lists devoted to R. 


P Project R-announce 


About R This list is for major announcements about the development of 
Contributors R and the availability of new code. It has a low volume (typically 
What's New? only a few messages a month) and everyone mildly interested 
Malling Lists should consider subscribing, but note that R-help gets 

Bug Tracking everything from R-announce as well, so you don't need to 
Gonférences subscribe to both of them. 





3) 1995 年 6 月 在 Martin Maechler ( 如 下 图 所 示 ) 等 人 的 努力 下 ， 这 个 R 语言 被 同意 免费 使 用 ， 
同时 遵守 自由 软件 基金 会 ( Free Software Foundation ) 的 GNU General Public License ( GNU 通 
用 公共 许可 证 ，GPL ) Version 2 的 协议 。 








Dr. Martin Maechler 取材 自 stat.ethz.ch/people/maechler 
4) 1997 年 R 语言 核心 开发 团队 成 立 。 
5) 2000 年 第 1 版 R1.0.0 正式 发 布 。Ross Ihaka 将 R 的 开发 简 史 记录 了 下 来 ， 可 参考 下 图 中 的 
网 址 。 
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R : Past and Future History 


Ross Ihaka 

| Statistics Department 

| The University of Auckland 
| Auckland, New Zealand 

| An Daft of a Paper for Interface 98 
Abstract 


R began as an experiment in trying to usc the methods of Lisp implementors to build a small testbed which could be used to trial some ideas on how a statistical environment 
might be built. Early on, the decision was made to use an -like syntax. Once that decision was made, the move toward being more and more like S has been irresistible. 


R has now outgrown its origins and its development is now a collaborative effort undertaken using the Interne: to exchange ideas and distribute the results. The focus is now 
on how the initial experiment can be turned into a viable piece of free software. 


This paper reviews the past and present status of R and takes a brief look at where future development might lead. 


* Genesis 

* A Free Software Project 

* Acknowledgements 
References. 





imi R 的 运行 环境 


在 R 语言 核心 开发 团队 的 努力 下 ， 目 前 R 语言 已 可 以 在 常见 的 各 种 操作 系统 下 运行 。 例 如 ， 
Windows, Mac OS, Unix 和 Linux。 


R 的 扩展 


R 的 一 个 重要 优点 是 ，R 是 Open Source License， 这 表示 任何 人 均 可 下 载 并 修改 ， 因 此 许多 人 
在 编写 增强 功能 的 套件 ， 同 时 供 他 人 免费 使 用 。 


本 书 的 学 习 目标 


不 容 否 认 ， 不 论 是 S 语 言 或 R 语言 均 是 统计 专家 所 开发 的 ， 因 此 ，R 具有 可 以 完成 各 种 统计 
的 工具 。 但 己 有 越 来 越 多 的 程序 设计 师 开 始 加 入 学 习 R， 使 得 R 也 开始 可 以 完成 非 统计 方面 的 工 
ME, 例如， 数据 处 理 、 图 形 处 理 、 心 理学 、 遗 传 学 、 生 物 学 、 市 场 调查 等 等 。 

本 书 在 编写 时 ， 尽 量 将 读者 视 为 初学 者 ， 辅 以 丰富 实例 ， 期 待 读者 可 以 用 最 轻松 的 方式 学 会 


R 语言 。 
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本 章 习题 


一 、 判 断 题 

( O) 1. 要 成 为 大 数据 工程 师 ( Big Data Engineer), 学习 R 语言 是 一 件 很 重要 的 事 。 
C) 2.Facebook 信息 、 视 频数 据 是 可 排序 的 数据 。 

( O) 3.R 语言 目前 只 能 在 Windows 和 Mae OS 系统 下 执行 。 

( O) 4.R 语言 是 免费 软件 。 


二 、 单 选 题 
( O) 1.R 语言 无 法 在 以 下 哪 一 个 系统 下 执行 ? 
A. Linux B. Unix C. Android D. Mac OS 
( ) 2. 下 列 哪 一 个 人 对 R 语言 的 开发 没有 贡献 ? 
A. Steve Job B. Ross Ihaka 
C. John Chambers D. Robert Gentleman 
( ) 3. R 语言 是 以 哪 一 个 语言 为 基础 开发 完成 ? 
A.SAS B.S C. SPSS D.C 
三 、 多 选 题 
C o 1.， 我们 现在 可 以 免费 使 用 R 语言 ， 下 列 哪些 人 是 有 贡献 的 ?” (选择 3 项 ) 
A. Martin Maechler B. Ross Ihaka 
C. Robert Gentleman D. Tim Cook 


E. Marissa Mayer 


第 一 次 使 用 R 
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有 关 安 装 R 语言 程序 与 RStudio 作业 环境 套件 的 操作 可 以 参考 附录 A， 本 章 笔者 将 介绍 如 何 
启动 和 在 R Console 窗口 下 撰写 R 程序 。 


FE 第 一 次 启动 R 
2-1-1 在 Mac OS 下 启动 R 
在 Mac 环境 中 ， 如 果 先 前 只 是 安装 R， 并 没有 安装 RStudio， 则 可 以 在 应 用 程序 文件 夹 看 到 R 


语言 图 标 ， 如 下 图 所 示 ， 然 后 启动 。 














双击 标准 R 图 标 ， 可 以 正式 进入 R-Console 环境 ， 如 下 图 所 示 。 


eoo R Console Pal 
"Ea ^ Ü 4 ca u = [B] 


Qr Help Search 











R version 3.2.1 (2015-06-18) -- "World-Famous Astronaut" 
Copyright (C) 2015 The R Foundation for Stotistical Computing 
Platform: x86.64-apple-darwini0.8.0 (64-bit) 

R 是 免费 软体 .不 提供 任何 担保 

在 某 兹 条 件 下 您 可 以 将 其 自由 散布 

iricense()£'licence( ) 来 获得 散布 的 详细 条 件 + 


R 是 个 合作 计划 ,有 许多 人 为 之 做 出 了 珊 献 
用 "contributors( ) ”来 看 详细 的 情况 并 且 
用 "citation( 会 舍 诉 您 如 何在 出 版 品 中 正确 地 参照 R 或 R 赛 件 * 


用 'demo( ) 来 看 一 些 苑 围 程式 .用 help( ) 来 检 视线 上 辅助 档案 ,或 
Wi'helpstart() 通过 HTML SIRER 

M'OAR R. 

[R.app GUI 1.66 (6956) x86 64-opple-darwin10.8.0] 


[Workspace restored from /üsers/cshung/.RData] 
[History restored from /Users/cshung/.Rapp.history] 


>| 



































在 这 里 ， 就 可 以 正式 使 用 R 语言 


2-1-2 在 Mac OS 下 启动 RStudio 


如 果 你 安装 完 R， 然 后 也 安装 完 RStudio， 则 可 以 在 屏幕 下 方 工具 栏 看 到 RStudio 图 标 ， 如 下 
图 所 示 。 


CHAPTER 02 第 一 次 使 用 R 





即 可 以 启动 ，R 的 整合 式 窗 口 环境 如 下 图 所 示 。 








olg- neal B Project: (None) > 
人 Untitied1 x = Environment History a0 
A Osure QZ- c9 b» [source -| CE E) 人 PimponDaasetr f E = uste 
X fly Global Environment + Q 


Environment is empty 








Files Plots Packages Help Viewer „s0 








gi QÜ New Folder ©. Delete i5 Rename {È More~ @ 
Platform: x86. 64-opple-darwini0.8.0 (64-bit) D 4$ Home 
* Name Size Modified 

on © €) mmaistory 22.5KB Oct 27, 2015, 5:20 PM 
用 "Ucense( ) ifUcence( 3 Jet fa «ito f O 8j youmamerda 748 Jun 23, 2015, 4:09 PM 

日 81 xwar.rda 708 Jul 7, 2015, 9:10 PM 
M READ O L3 umbrellaO.log 10.11KB Aug 6, 2011, 11:26 PM 
用 catena REIHE REI EWADR KJ A. € B usos 人 

日 LJ testagain 68 Aug 20, 2015, 5:23 PM 
用 ‘demol) 米 看 一 些 示 范 程序 ， 用 'help() 米 检视 线 上 辅助 档案 ， 或 日 LJ] test3.txt 108 Aug 20, 2015, 2:18 AM 
用 helosan iA HTML MLKS. CO 口 wsa 108 Aug 20, 2015, 2:04 AM 
M wer 日 L3 testxisx 269KB Aug 20, 2015, 1:46 AM 
Diirkepacer Menge tren Rpg 日 D test2 708 Jun 23, 2015, 4:12 PM 
>| 日 L3 test 748 Jun 23, 2015, 4:12 PM 








由 上 图 可 以 看 到 整合 式 窗口 共有 4 个 区 域 ， 基 本 上 左下 方 的 Console 窗口 ， 是 我 们 最 常 使 用 
的 窗口 。 


Q 未 来 所 有 实例 ， 均 是 在 RStudio 窗口 内 执行 的 。 


2-1-3 {E Windows 环境 中 启动 R 和 RStudio 
安装 完成 Windows 系统 的 R 后 ， 如 果 启 动 R， 可 以 看 到 下 列 R-Console 窗口 。 
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mx uH 看 其 他 EXEG SE MU 


Ela Isle 








R version 3.2.1 (2015-06-18) — "World-Famous Astronaut" 
Copyright (C) 2015 The R Foundation for Statistical computing 
Platform: x86 64-w64-mingw32/x64 (64-bit) 


R 是 免费 软件 ， 不 提供 任何 担保 。 
在 某 些 条 件 下 您 可 将 其 自由 散步 - 
用 'License( ) 或 'Licence( )' 来 获得 散布 的 详细 条 件 - 


R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 贡献 。 
用 “contributors()' 来 看 详细 的 情况 并 且 
用 "citation 会 告诉 您 如 何在 出 版 品 中 正确 地 参照 R 或 R 套 件 。 


用 'demo()' 来 看 一 些 示范 程序 ， 用 'help()' 来 检视 线 上 辅助 档案, 或 
用 help.start()' 透 过 HTML 浏览 器 来 看 辅助 档案 。 
用 (离开 R 


>l 
如 果 安 装 并 启动 RStudio， 就 可 以 看 到 下 列 RStudio 窗口 。 


File Edit Code View Plots Session Build Debug Tools Help 
@& 2- i ai&ll^ 





RStudio from Source 





This document describes how to build and install mstudio fr Ervitorment is empty. 
distribution. Information on obtaining the RStudio source c 
in the file SOURCE. Note that precompiled binaries are alsc 
Windows, OSX, as well as recent versions of various Linux c 


ooscwbunH 


1) Installing Deperdencies 


Building Rstudio requires a number of dependencies (includi 
There are platform-specific instructions for satisfying the 
within the following directories 








Jun 30,2015, 155PM 
Jun 30, 2015, 1:55PM 
Jun 30,2015, 1:55PM 


Console C/Programfiesmstudic D — 

R version 3.2.1 (2015-06-18) -- "world-Famous Astronaut” 

| Copyright (C) 2015 The R Foundation for Statistical computing 
Platform; x86 64-wGi-mingu32/x64 (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. PIC SPERM 


You are welcome to redistribute it urder certain conditions. 
Type "McenseQ' or "licenceQ" for distribution details. TANER 
02,2005, 321 pM 


Jun 30,2015 210PM 


DOOOOOOOD | LH 


ü 
D 
Br 
2 


R is a collaborative project with many contributors. 
e "contributors)' for more information and 
'citationO' on how to cite R or R packages in publications. 


口 
D 
i 


Type 'demoQ for some demos, "helpO' fer on-line help, or 


"help.startQ for an HTML browser interface to help. 
Type "qQO' to quit R. 


| 





>l 





可 参考 下 图 ， 基 本 上 可 以 将 RStudio 整合 式 窗口 分 成 以 下 4 大 区 域 。 
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1. Source Editor 


Soure Editor 





区 域 位 于 RStudio 窗口 左上 角 ， 如 下 图 (Æ) 所 示 。 这 是 R 语言 的 程序 代码 编辑 


区 ， 你 可 以 在 此 编辑 R 语言 程序 代码 ， 储 存 ， 最 后 再 运行 。 


2. Console 


Console 区 域 位 于 RStudio 窗口 左下 角 ， 如 下 图 Cfi) 所 示 。R 语言 也 可 以 支持 直译 器 ( Interpreter ) 
功能 ， 此 时 就 需要 使 用 此 区 域 窗口 ， 在 此 可 以 直接 输入 指令 ， 同 时 获得 执行 结果 。 





eoo Rstu Console -1 — -D 


ei d-iBBag &i R version 3.2.1 (2015-06-18) -- "World-Famous Astronaut" 





9 j Untitledl x 


1 





Ej 口 surce | Q, ZE =| $9 > soure + 


11  (Toplevel = R Script > i 


Copyright (C) 2015 The R Foundation for Statistical Computi 
ng 
Platform: x86 64-apple-darwini.8.0 (64-bit) 


R 是 免费 软件 ， 不 提供 任何 担保 。 
在 某 此 条件 下 您 可 将 其 自由 散步 。 
用 "License( ) 或 "Ucence( ) 来 获得 散布 的 详细 条 件 。 


R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 贡献 ， 
用 ‘contributors() 来 看 详细 的 情况 井 且 
用 'citation()' 会 告诉 您 如 何在 出 版 唱 中 正确 地 参照 R 或 R fer. 


用 demol)' 来 看 一 些 示 范 程序 ， 用 'help()' 来 检视 线 上 辅助 档案 ， 或 
用 help.start()' 适 过 HTML 浏览 器 来 看 辅助 档案 ， 
用 90 离 开 R 











3. Workspace 

Workspace 窗口 位 于 RStudio 窗口 右上 角 ， 如 下 图 (£) 所 示 。 如 果 选 择 Environment 标签 ， 
那么 这 区 域 会 记录 在 Console 输入 的 所 有 指令 的 相关 对 象 的 变量 名 称 和 值 。 如 果 选 择 History 标 
签 ， 则 可 以 在 此 看 到 Console 窗口 所 有 执行 指令 的 记录 。 

4. Files、Plots、Packages、Help 和 Viewer 

该 区 域 位 于 RStudio 窗口 右 下 角 ， 如 下 图 ( 右 ) 所 示 。 这 几 个 标签 的 功能 分 别 如 下 所 述 。 

1) Files : 在 此 可 以 查看 个 文件 夹 的 内 容 。 

2 ) Plots : 在 此 可 以 呈现 图 表 。 


3 ) Packages : 


在 此 可 以 看 到 已 安装 R 的 扩充 套件 。 


4) Help : 在 此 可 浏览 辅助 说 明文 件 内 容 。 


Files Plots Packages Help Viewer = 
Environment History =0 = 
New Foder | Q] Dieta. [BI] Resame | $È More- @ 
2 Ej iX mportDataset- f E = uste EA rp 
4 Global Environment Q C 国 yumamerd 748 Jun23, 2015, 4:09 PM 
日 8j xwar.rda 708 Jul 7, 2015, 9:10 PM 
C) Dj umbrelablog ^ 10.1K8 Aug 6, 2011, 11:26 PM 
Poircnment i empty 日 Bl testing.png 40 KB Sep 9, 2015, 6:24 PM 
日 D) testagain 68 Aug 20, 2015, 5:23 PM 
日 D testot 108 Aug 20, 2015, 2:18 AM 
O D wu 108 Aug 20, 2015, 2:04 AM 
O D) testdsx 26.9KB Aug 20, 2015, 1:46 AM 
日 D esz 708 Jun 23, 2015, 4:12 PM 
O [D tst 748 Jun 23, 2015, 4:12 PM 
C D whi&i&pr — 168 Aug 20, 2015, 11:26 PM 
Q Aur 388 Aug 20, 2015, 1:54 AM 





日 & suf 





R 语言 一 一 迈 向 大 数据 之 路 


第 一 次 使 用 R 


先前 说 过 及 可 以 支持 直译 器 功能 ， 下 图 所 示 的 是 打印 “Hello! R*"， 可 参考 下 图 所 示 的 使 用 
Console 窗口 的 操作 范例 和 结果 。 





Console -/ © im 


R version 3.2.1 (2015-06-18) -- "World-Fomous Astronaut” 
Copyright (C) 2015 The R Foundation for Statisticol Computing 
Platform: x86 64-opple-darwini0.8.0 (64-bit) 

R 是 免费 软体 ,不 提供 任何 担保 

在 某 总 条件 下 您 可 以 簿 其 自由 散布 

用 "icense() J£ licence( )' 来 获得 胶布 的 详细 条 件 * 


R 是 个 合作 计划 有 许多 人 为 之 化 出 了 贡献 * 
Wi'contributors( )' 来 看 详细 的 情况 并 且 
Fil'citation( )' 会 告诉 您 如 何在 出 版 品 中 正确 地 参照 R 或 R 讲 件 * 


用 'demo( ) 来 看 一 些 范围 程式 ,用 'help( )” 来 检视 线 上 辅助 档案 , 戏 
Bi'help.start( )' SI2HTML. 浏览 器 来 辅助 档案 


R 语 言 直译 器 的 提示 讯息 








向 量 的 索引 值 ， 更 详细 说 明 可 参考 4-6 节 





在 上 图 中 可 以 了 解 到 ,“>” 是 R 语言 直译 器 的 提示 信息 ， 当 看 到 此 信息 时 ， 即 可 以 输入 R 命令 。 
当然 我 们 也 可 以 使 用 Source Editor 编辑 程序 ， 然 后 再 执行 。 执 行 结果 的 实例 ， 可 参考 下 图 。 
首先 编辑 下 图 所 法 的 程序 代码 。 


aa Cu ———sá St UO aa 
9i d-uag el^ 








Q^] Untitled1* x =0 
Ej 口 sourceonsave | Q 天 -| £i Run | BH | > Source ~ 

1 [emen R") 

2 
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接着 储存 上 述 程序 代码 ， 如 下 图 所 示 。 








9e; a- aB 


9 Untitled1* x | -D 








(O C Source on Save Te Žž- 8 Errun | $9 | C> Source - 
1 porem R") 
2 








请 单 击 上 图 中 的 储存 按钮 ， 也 可 以 执行 RStudio 的 File/Save As 命令 ， 接 着 选择 适当 的 文件 
夹 ， 再 输入 适当 的 文件 名 。 此 例 的 命 件 名 是 ch2_1， 如 下 图 所 示 。R 语言 默认 的 文件 名 扩展 名 是 R。 


Sese) — — O 

















m)(m-jüe JG 
[bo "üm o > 





所 以 执行 完 上 述 命令 ， 就 相当 于 将 代码 储存 在 ch2_1.R。 

在 RStudio 的 Source Editor 区 有 “Source” 标 签 ， 如 下 图 所 示 。 如 果 这 时 单 击 此 标签 ， 这 个 动 
作 被 称 为 Sourcing a Script。 其 实 这 就 是 执行 Source Editor 工作 区 的 程序 ( 其 实 这 个 动作 也 会 同时 
储存 程序 代码 )。 单 击 “Source” 标 签 后 可 以 看 到 下 图 所 示 的 执行 结果 。 


9i d -i i cé 


Ehz | ERES E en 
|] Osexaonsme A "| Eun 59 (Co source) 

1 | R") 

2 

















Qi- 2- a Aal Bll coro erna | 


ch2_lRx | a 
| 3 Osourceonsave Q #- 8 [Run $5 | C> Source - 

1 prm R") 

2 
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Console ~/ © =0 


R version 3.2.1 (2015-06-18) -- "World-Famous Astronaut" 
Copyright (C) 2015 The R Foundation for Statistical Computing 
Platform: x86 64-apple-darwini9.8.0 (64-bit) 


R 是 免费 软件 ， 不 提供 任何 担保 。 
在 某 些 条 件 下 您 可 将 其 自由 散步 。 
用 'License( )' 或 Licence( ) 来 获得 散布 的 详细 条 件 。 


R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 贡献 。 
用 'contributors()' 来 看 详细 的 情况 并 且 
用 'citation()' 会 告诉 您 如 何在 出 版 品 中 正确 地 参照 R 或 R 套件 。 


用 'demol)' 染 看 一 些 示范 程序 ， 用 'help()' 来 检视 线 上 辅助 档案 ,或 
用 'help.start()' 透 过 HTML 浏览 器 来 看 辅助 档案 。 
用 'q() 离 开 R' 


> print("Hello! R") 

[1] "Hello! R" 

> source('-/Documents/R $3 8f /ch2/ch2 1.R') 
[1] "Hello! R" 


> 





一 个 完整 的 R 程序 ， 即 使 是 在 Source Editor 区 编辑 ， 其 执行 的 非 图 形 数据 结果 ， 也 将 是 在 
Console 窗口 中 显示 ， 如 上 图 所 示 。 如 果 此 时 检查 RStudio 整合 式 窗口 的 右 下 方 ， 再 单 击 “Files” 
标签 ， 适 当地 选择 文件 夹 后 ， 就 可 以 看 到 ch2_1.R 文件 ， 如 下 图 所 示 。 








Files Plots Packages Help Viewer a0 
| Qi New Folder | Q | Delete L$] Rename | 区 More- @ 
[O fà Home > Documents > REEE > ch2- E 
© | Nam — — Size Modified 

t. 
C) 9j ch2 LR 188 Jul 2, 2015, 5:14 PM 








假设 现在 想 编辑 新 的 文件 ， 可 单 击 下 图 中 “ch2_1.R” 标 签 右边 的 关闭 按钮 。 








91- eg | 人 | (oo co to ier 





| SERO) 一 一 口 


| 月 口 sourceonsave | Q 天 -| i1 ED [DIL Do 
1 print("Hello! R") 
È 














此 时 Source Editor 区 的 窗口 会 暂时 消失 。 之 后 单 击 下 图 中 Console 窗口 右上 角 的 按钮 。 


Console ~} © 


R version 3.2.1 (2015-06-18) -- "World-Famous Astronaut” 
Copyright (C) 2015 The R Foundation for Statistical Computing 
Platform: x86 64-apple-darwini0.8.0 (64-bit) 


R 是 免费 软件 ， 不 提供 任何 担保 。 
在 某 些 条 件 下 您 可 将 其 自由 散步 。 
用 'License( )' 或 'Uicence( )' 来 获得 散布 的 详细 条 件 。 


R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 贡献 。 
用 'contributors()' 来 看 详细 的 情况 并 且 
用 ‘citation()' 会 告诉 您 如 何在 出 版 品 中 正确 地 参照 R 或 R 套件 。 


用 'demo()' 来 看 一 些 示 范 程序 ， 用 'help()' 来 检视 线 上 畏 助 档案 ， 或 
用 "help.start()' 透 过 HTML 浏览 器 来 看 辅助 档案 。 

用 'q0) 离 开 R 

> print("Hello! R") 

[1] "Hello! R" 

> source('-/Documents/R53] Bf /ch2/ch2. 1.R') 

[1] "Hello! R" 


> 


便 可 恢复 显示 Source Editor 窗口 ， 如 下 图 所 示 。 
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gigi mio 下 TI nse 
i) Untitled x =| Environment History = 
B Osourceonsae Q + E C*Run S> source -| COE Ed O impon Dawes oO uste 
1 f Global Environment a 
Ervironment is empy 
Xl |(oplew) = RScript $ 
Console ~/ = 一 口 | ples Plots Packages Help Viewer ERI 
Q New Folder | Q. Delete [či Rename | Qi More- @ 
R version 3.2.1 (2015-06-18) -- “World-Fonous Astronaut" 
Copyright (C) 2015 The R Foundation for Statistical Computing G Home iiae 
Platform: x86_64-appte-darwin19.8.9 (64-bit) — sz Modihed 
R RPRUM CHEER C 9) cz_ln 188 Jul 2, 2015, 5:14 PM 











显示 其 他 编辑 的 文件 。 


Q 


BZ R 语言 的 对 象 设 定 


如 果 Source Editor 窗口 内 ， 同 时 有 多 个 文件 被 编辑 时 ， 关 闭 一 个 所 编辑 的 文件 ， 此 时 将 改 成 


如 果 你 学 过 其 他 计算 机 语言 ， 想 将 变量 x 设 为 5， 可 使 用 下 列 方法 。 
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^ 
LU 
UA 


@ R 语言 是 一 种 面向 对 象 的 语言 ， 上 述 x， 也 可 被 称 为 对 象 变量 。 甚 至 ， 有 的 R 程序 设计 师 称 
X 为 对 象 。 在 本 书本 章 中 笔者 先 用 完整 名 称 “ 对 象 变量 "， 在 后 续 章 节 中 ， 笔 者 将 直接 以 对 象 
( Object ) 称 之 。 





在 R 语言 中 ， 可 以 使 用 上 述 等 号 ， 但 更 多 的 R 语言 程序 设计 师 , 会 使 用 “<-” 符 号 ， 其 实 此 
符号 与 “=” 号 ， 意 义 一 样 。 例 如 ， 将 变量 x 设 定 为 5 可 按 如 下 方式 。 

x«-5 

可 参考 下 列 实例 。 


>x=5 





>x 

[1] 5 

>x<-5 

>x 

[1] 5 

在 上 述 程序 实例 中 ,在 给 对 象 变量 x 赋值 后 ， 如 果 直 接 列 出 对 象 变量 x， 则 相当 于 可 列 出 对 
象 变量 的 值 ， 此 例 是 列 出 5。 至 于 “[1]” 是 指 这 是 第 一 项 输出 。 

另 一 个 奇怪 的 R 的 等 号 表示 方式 ， 是 以 “->” 表 示 ， 这 种 表示 方式 的 对 象 变量 是 放 在 等 号 右 
yl. 如 下 所 示 。 

S ->x 

可 参考 下 列 实例 。 


> 5 -> X 
> X 
n5 


> 


不 过 这 种 方法 ，R 程序 设计 师 一 般 比 较 少 用 。 


A 有 些 计算 机 语言 ， 变 量 在 使 用 前 要 先 定义 ，R 语言 则 不 需 先 定义 ， 可 在 程序 中 直接 设 定 使 
用 ， 如 本 节 实例 所 示 。 


| 2-5| Workspace 窗口 


在 Workspace 窗口 中 ， 如 果 单 击 “Environment” 标 签 ， 则 可 以 看 到 至 今 所 使 用 的 对 象 变量 及 
此 对 象 变量 的 值 ， 如 下 图 所 示 。 


CHAPTER 02 第 一 次 使 用 R 








History 一 口 
Cf E] E impor Datasets | 6 G = Ustv 
dh Global Environment» — Q 











如 果 单 击 “History” 标 签 ， 则 可 以 看 到 Console 窗口 的 所 有 执行 命令 的 记录 ， 如 下 图 所 示 。 





Environment 一口 
Q 








此 外 ， 若 在 Console 窗口 输入 1 ()， 可 以 列 出 目前 Environment 所 记录 的 所 有 对 象 变量 ， 如 下 
所 示 。 
> 1sO 
p "x" 
> 
延续 之 前 实例 ， 增 加 对 象 变量 y，z。 并 设 定 对 象 变量 y 等 于 10， 对 象 变量 z 值 等 于 对 象 变量 
x 加 上 对 象 变量 y， 如 下 所 示 。 
>y<-10 
>z<-x+y 
-z 
[1] 15 
此 时 在 Console 窗口 输入 1 ()， 可 以 看 到 有 3 个 对 象 变量 ，x、y 和 z， 如 下 所 示 。 


> 1sC ) 
[1J "x" "y" "z" 
» 


R 语言 一 一 迈 向 大 数据 之 路 


如 果 检 查 Workspace 窗口 ， 则 可 以 看 到 这 3 个 对 象 变量 及 其 值 ， 如 下 图 所 示 。 





C 一 -n 
7 hb L2? Import Dataset ~ «4G = Lst- 
dh Global Environment - Q 
Values 

x 5 
y 10 
z 15 











使 用 R 时 ， 如 果 某 个 对 象 变量 不 再 使 用 ， 则 可 以 使 用 m O 函数 ， 将 此 对 象 变量 删除 。 下 列 


是 删除 z 对 象 变量 的 实例 及 验证 结果 。 


> rmz) 

> 1sC ) 

[1] "x" "y" 
> 


此 时 Workspace 窗口 内 的 z 对 象 变量 也 不 再 出 现 了 ， 如 下 图 所 示 。 





Environment History eC 
€T Ej E impor Dataset™ €< @ = ust- 
^ Global Environment ~ Q 
Values 

x 5 

y 10 











结束 RStudio 


在 Console 窗口 ， 输 入 q O, 来 结束 使 用 RStudio， 如 下 所 示 。 


> qO 
Save workspace image to ~/.RData? [y/n/c]: 


O y : 表示 将 上 述 对 象 变量 和 对 象 变量 的 值 存储 在 “.RData” 文 件 ， 未 来 只 要 启动 RStudio， 此 
“.RData” 文 件 均 会 被 加 载 到 Workspace 窗口 。 如 果 你 将 此 文件 在 文件 夹 中 删除 ， 则 重新 启 
动 RStudio 时 ，Workspace 窗口 的 内 容 就 会 是 空白 。2-7-2 节 会 介绍 此 文件 ， 供 未 来 使 用 。 
O n: 表示 不 储存 。 
O c: 表示 取消 。 
也 可 以 执行 RStudio 窗口 的 File/Quit RStudio 命令 ， 结 束 使 用 RStudio， 效 果 相 同 。 


保存 工作 成 果 
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在 正式 谈 保存 工作 成 果 前 ， 笔 者 将 先 介绍 另 一 个 函数 getwd ()， 用 这 个 函数 可 以 了 解 目前 工 
作 的 文件 夹 ， 相 当 于 未 来 保存 工作 成 果 的 文件 夹 。 下 列 是 笔者 计算 机 的 执行 结果 。 


> getwd() 


[1] "/Users/cshung" 


> 


使 月 





不同 的 操作 系统 ， 可 能 会 有 不 同 的 结果 。 


2-7-1 使 用 save O 函数 保存 工作 成 果 
下 列 是 笔者 将 x 和 y 对 象 变量 保存 在 “xyvar.rda” 文 件 中 的 运行 实例 。 


> save(x, y, file = "xyvar.rda") 


> 


执行 完 后 ， 无 任何 确认 信息 ， 不 过 ， 可 以 在 RStudio 窗口 右 下 方 的 Files/Plots 窗口 看 到 此 
"xyvar.rda" 文件 ， 如 下 图 所 示 。 





O A Home 

LJ 可 .Rhistory 
日 @ Applications 
O &j Desktop 

O &J Documents 
C) &J) Downloads 
O ĝ Library 

C) @ Movies 

C) @ Music 

C) @ Pictures 

C) 国 Public 

日 ĝ sites 

日 & sufit 

C L test 

C L test2 

C) Lj umbrella0.log 





CJ) 8^ yourname.rda 
CC. xwarrd> 


Files Plots Packages Help Viewer 
QE) New Folder | Q | Delete [$] Rename 


104 B 


74B 
70B 
10.1 KB 
74B 
708 


Ü More- 


Jul 6, 2015, 8:02 AM 


Jun 23, 2015, 4:12 PM 
Jun 23, 2015, 4:12 PM 
Aug 6, 2011, 11:26 PM 
Jun 23, 2015, 4:09 PM 
Jul 7, 2015, 9:10 PM 


E 
€ 








当 在 窗口 中 看 到 上 述 文件 时 ， 表 示 保 存 对 象 变量 x 和 y 的 操作 成 功 了 。 
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2-7-2 ”使 用 save.image O 函数 保存 Workspace 
使 用 save.image () 函数 可 以 将 整个 Workspace 保存 在 系统 默认 的 “.RData” 文 件 内 ， 如 下 
所 示 。 


> save.image() 
> 





上 述 命令 被 执行 后 可 以 得 到 下 图 所 示 的 执行 结果 。 











Files Plots Packages Help Viewer ect 

QE New Folder | Q | Delete [$] Rename | {$ More- (9 

(fnm ——— — d [e 
Name Size Modified 

ECES, 2.6 KB Jul 7, 2015, 9:26 PM 

O (0j .Rhistory 183B Jul 7, 2015, 9:15 PM 

CJ 国 Applications 

日 &j Desktop 








2-7-3 ”下载 之 前 保存 的 工作 


请 先 使 用 mm O 函数 清除 Workspace 窗口 的 对 象 变 量 值 。 下 列 命 令 是 清除 对 象 变量 x 和 y 的 值 。 
> rmx) 
> m) 


> 


方法 1 : 使 用 load O 函数 ， 直 接 下 载 先前 保存 的 值 ， 如 下 所 示 。 


> load("xyvar.rda") 
> 


如 果 此 时 检查 Workspace 窗口 ， 则 可 以 得 到 下 列 结 果 ， 窗 口中 列 出 对 象 变 量 x 和 y 的 值 。 





Environment History eC 
€T B | E mpor Dataset» | a | @ = listy 
dh Global Environment ~ Qa 
Values 

x s 

y 10 








方法 2 : 也 可 以 直接 单 击 RStudio 窗口 右 下 方 Files/Plots 窗口 的 "xyvar.rda" 文件 ， 即 可 下 载 
之 前 储存 的 工作 ， 如 下 图 所 示 。 


CHAPTER 02 第 一 次 使 用 R 





口 合 Home 

LJ 6] .Rhistory 
& Applications 
& Desktop 
@ Documents 
@ Downloads 
& Library 

国 Movies 

@ Music 

Cj Pictures 
国 Public 

Â Sites 

Gi stuffit 

LÌ test 

日 L test2 

LJ Lj umbrellaO.log 


) 


)J0OO0OO000 


00000 


o 





日 8 yourname.rda 


Files Plots Packages Help Viewer 
QE New Folder © Delete [3] Rename 


1838 


74B 
708 
10.1 KB 
708 
74B 


S More- © 


一 口 


Jul 7, 2015, 9:15 PM 


Jun 23, 2015, 4:12 PM 
Jun 23, 2015, 4:12 PM 
Aug 6, 2011, 11:26 PM 
Jul 7, 2015, 9:10 PM 

Jun 23, 2015, 4:09 PM 

















笔者 在 2-7-2 节 有 介绍 ， 可 使 用 save.image O 将 工作 储存 在 “.RData”"， 其 实 也 可 以 使 用 上 述 


方法 ， 双 击 “RData”"， 下 载 所 储存 的 工作 。 


历史 记录 


启动 RStudio 后， 基本 上 所 有 执行 过 的 命令 均 会 被 记录 在 Workspace 窗口 的 History 标签 选项 
内 ， 如 下 图 所 示 。 有 时 为 了 方便 ,不 想 太 麻烦 重新 输入 命令 ， 可 以 单 击 此 区 执行 过 的 指令 ,然后 执 


行 下 列 两 个 操作 。 


O To Console : 将 所 单 击 的 命令 ， 重 载 到 Console 窗口 。 


口 To Source : 将 所 单 击 的 命令 ， 重 载 到 Source Editor 窗口 。 





Environment — History 


eB E% To Console B® To Source 9) «4 Q 


=0 





xes 
x 

X <- 5 
x 
Sox 
x 

y «- 10 
Z <-X+y 
z 
1sC) 
rm) 
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这 可 方便 查阅 所 使 用 过 的 命令 ， 或 重新 运行 。 如 果 你 想 将 此 历史 记录 保存 ， 可 以 使 用 
savehistory () 函数 。 然 后 此 历史 记录 会 被 存 人 “.Rhistory” 文件 内 。 你 可 以 通过 查看 RStudio 窗口 
右 下 方 的 Files/Pilots 窗口 ， 看 到 此 文件 。 











Files Plots Packages Help Viewer et 

QE) New Folder | Q | Delete [$] Rename | $ More- @ 

口 A Home i au PE L3 
^ Name Size Modified 

C) @ history 3798 Jul 8, 2015, 12:00 AM 

O &@ Applications 

O &J Desktop 





如 果 想 用 其 他 名 称 储 存 此 历史 档 ， 则 可 使 用 下 列 方式 。 下 列 是 将 历史 文件 储存 至 “ch2_2. 
Rhistory” 文 件 内 。 


> savehistory(file = "ch2 2.Rhistory") 
- 


如 果 想 加 载 “.Rhistory”"， 则 可 以 使 用 下 列 命令 。 


> loadhistory( ) 
> 


如 果 想 加 载 特定 的 历史 文件 ， 例 如 先前 储存 的 “ch2_2.Rhistory”"， 则 可 以 使 用 下 列 命令 。 


> loadhistory(file = "ch2 2.Rhistory") 
> 


程序 注释 


序 注释 的 主要 功能 是 让 你 所 设计 的 程序 可 读 性 更 高 ， 更 容易 了 解 。 在 企业 工作 ,一 个 实用 
mapu i 此 时 你 可 能 需要 设计 好 几 个 月 。 程 序 加 上 注释 ， 可 方便 
你 或 他 人 ， 未 来 较 便 利 地 了 解 程序 内 容 。 

不 论 是 使 用 直译 器 或 是 R 程序 文件 中 ,“# ”符号 右边 的 文字 ， 和 皆 被 称 为 程序 注释 ，R 语言 的 
直译 器 或 编译 程序 皆 会 名 略 此 符号 右边 的 文字 。 可 参考 下 列 实 例 。 

»x«5 

>x # print x 

[1] 5 


> 


上 述 第 二 列 “# ”符号 右边 的 文字 ,“print x”"， 是 此 程序 的 注释 。 下 图 所 示 的 是 R 程序 文件 的 一 
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个 实例 
QjuUntitledl x | BIch2_2.R* x -D 
O |j Ciseweonswe | QF" Erun | $9 | G Source - 
: : sample ch2 2.R 程序 注释 
FF R") 
5 





上 述 程序 实例 “ech2_2.R” 的 前 3 行 ,由 于 有 "s" 符号 ， 代 表 是 程序 注释 ， 在 此 笔者 特别 注 
明 ， 这 是 程序 ch2_2.R， 相 当 于 本 章 2-3 节 中 的 第 二 个 程序 实例 。 所 以 真正 的 程序 只 有 第 4 行 。 
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本 章 习 题 


一 、 判 断 题 


( 


) t 
六 


RStudio 的 Console 窗口 主要 是 编辑 R 语言 程序 代码 ， 储 存 ， 最 后 再 执行 的 窗口 。 

R 语言 有 支持 直译 器 ( Interpreter )， 可 以 在 Console 窗口 直接 输入 命令 ， 同 时 获得 执 
行 结果 。 

在 Workspace 和 窗口， 如果 选 择 Environment 标签 ， 则 可 以 在 此 看 到 Console 窗口 的 所 有 
执行 指令 的 记录 。 

一 个 完整 的 R 程序 ， 即 使 在 Source Editor 区 编辑 ， 其 执行 的 非 图 形 数据 结果 ， 将 是 在 
Console 窗口 中 显示 。 


) 5， 下 列 3 个 命令 的 执行 结果 是 一 样 的 。 
>x=10 
或 
>x<-10 
或 
>10->x 
二 、 单 选 题 
) 1 下列 哪 一 个 符号 是 程序 注释 符号 ? 
A.% B.@ C.# D.~ 
)2. 如 果 我 们 想 使 用 R 语言 的 直译 功能 ， 可 以 在 下 列 哪 一 个 窗口 输入 命令 ? 
A. Console 窗口 B. Source Editor 窗口 
C. Workspace 窗口 D. Files/Plots 窗口 
)3. 可 以 在 以 下 哪 一 个 窗口 看 到 所 有 变量 名 称 和 它 的 内 容 ? 
A. Console 窗口 B. Source Editor 窗口 
C. Workspace 窗口 D. Files/Plots 窗口 
) 4 下 列 哪 一 个 符号 不 是 R 语言 的 等 号 符号 ? 
A.= B. <- C. -> D. # 
) 5 下 列 哪 一 个 函数 可 以 在 Console 窗口 列 出 所 有 变量 数据 ? 
A.ls () B. rm () GO D. getwd () 
) 6， 下 列 哪 一 个 函数 可 以 将 整个 Workspace 保存 在 系统 默认 的 “.RData” 文 件 内 ? 
A. save () B.saveimage () C. load () D. savehistory () 
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三 、 多 选 题 


( 


) 1， 哪 几 个 函数 可 以 保存 Console 窗口 执行 过 的 命令 ? ( 选择 两 项 ) 
A.save () 
B. save.image () 
C. load O 
D. savehistory () 
E. getwd () 


实际 操作 题 ( 如 果 题 目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 

请 研究 RStudio 窗口 右上 和 角 的 Workspace 窗口 ， 说 明 下 列 标签 的 功能 。 
( I) Environment. 

( 2) History。 

( 3) To Console 

( 4 ) To Source. 

请 研究 RStudio 窗口 右 下 角 的 Files/Plots 窗口 ， 说 明 下 列 标签 的 功能 。 
(1 )Filess 

( 2) Export. 
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MEMO 














对 象 命名 原则 

基本 数学 运算 

R 语言 控制 运算 的 优先 级 
无 限 大 Infinity 

Not a Number ( NaN ) 
Not Available ( NA ) 


28 


R 语言 一 一 迈 向 大 数据 之 路 


本 章 笔 者 将 从 为 对 象 变量 ( 也 可 简称 对 象 ) 命名 说 起 ， 接 着 介绍 R 的 基本 算术 运算 。 


对 象 命名 原则 


在 2-9 节 中 ， 笔 者 介绍 过 ， 可 以 使 用 程序 注释 增加 程序 的 可 读 性 。 在 为 对 象 命名 时 ， 如 果 使 
用 适当 名 称 ， 也 可 以 让 你 所 设计 的 程序 可 读 性 增加 许多 。R 的 基本 命名 规则 包括 以 下 几 点 。 
1) 下 列 名 称 是 R 语言 的 保留 字 ， 不 可 当 作 是 对 象 名 称 。 
break, else, FALSE, for, function, if, Inf, NA, NaN, next, repeat, return, TRUE, while 
2) ”R 对 英文 字母 大 小 写 是 敏感 的 ， 所 以 basket 与 Basket， 会 被 视 为 两 个 不 同 的 对 象 。 
3) 对 象 名 称 开 头 必须 是 英文 字母 或 点 号 (“.”)， 当 以 点 号 (“.”) 开头 时 ， 接 续 的 第 二 个 字母 不 
可 是 数字 。 
4) ”对 象 名 称 只 能 包含 字母 、 数 字 、 底 线 (“_”) 和 点 号 (CST) 
笔者 曾 深 深 体会 到 ， 所 设计 的 程序 ， 时 间 一 久 后 ， 常 常会 忘记 各 变量 对 象 所 代表 的 意义 ， 
所 以 除了 为 程序 加 上 注释 外 ， 为 对 象 取 个 好 名 字 也 是 程序 设计 师 很 重要 的 课题 。 例 如 ， 假 设想 为 
James 和 Jordon 打 篮 球 的 得 分 取 对 象 名 称 。 你 可 以 按 如 下 设计 。 














balll 一 一 代表 James 的 得 分 。 

ball2 代表 Jordon 的 得 分 。 

上 述 方式 简单 ， 但 时 间 久 了 ， 比 较 容 易 忘记 。 如 果 用 下 列 方式 命名 。 

basket.James 代表 James 的 得 分 。 

basket.Jordon 代表 Jordon 的 得 分 。 

相信 即使 几 年 后 ， 你 仍 可 了 解 此 对 象 所 代表 的 意义 。 在 上 述 命名 时 ， 笔 者 在 名 称 中 间 加 上 点 


号 (“.”), 在 R 语 言 中 ,这 是 R 程序 设计 师 常用 的 命名 方式 ， 又 称 点 式 风格 (Dotted Style )。 事 实 
上 ，R 语言 的 许多 函数 皆 是 采用 此 点 式 命名 的 ， 例 如 ，2-9 节 所 介绍 的 save.image () 函数 。 

另外 ， 为 对 象 命名 时 也 会 采用 驼峰 式 ( Camel Case )， 将 组 成 对 象 名 称 的 每 一 个 英文 字母 开头 
用 大 写 。 例 如 ，my.First.Ball.Game， 这 样 可 以 直接 明白 此 对 象 名 称 的 意义 。 


EN] 基本 数学 运算 


3-2-1 四则 运算 
R 的 四 则 运算 是 指 加 (+ )、 减 (-)、 乘 (*) 和 除 (/)。 


CHAPTER 03 R 的 基本 数学 运算 


实例 ch3_1 : 加 法 与 减法 运算 实例 。 


>xl=5+6 #ESMORRANYRXL 

> Xl 

[1] 11 

> x2 = xl + 10 # EXIMOR X2 
> x2 

[1] 21 

> x3= x2 -xl # 将 XZ 沽 x1 设 定 给 对 象 x3 
> x3 

[1] 10 


> 


在 以 上 赋值 ( 也 可 想 成 等 号 ) 中 ， 笔 者 故意 用 “=” 符 号 ， 本 章 赋 值 有 时 候 也 会 用 “<-”， 主 
要 是 用 实例 让 读者 了 解 R 是 支持 这 两 种 赋值 符号 的 。 从 第 四 章 起 笔者 将 统一 使 用 “<-” 当 作 
赋值 符号 。 


实例 ch3_2 : 乘法 与 除法 运算 实例 。 


> XL = 5 

>x? =9 

> x3 = x1 * x2 #xXIFFXIRXZ 
> x3 

[1] 45 

> x4 = x2 /x1 大 X4 等 于 XZ 除 以 x1 
> x4 

[1] 1.8 

> 


3-2-2 余数 和 整除 


余数 (mod) 所 使 用 的 符号 是 “%%”"， 可 计算 出 除法 运算 中 的 余数 。 整 除 所 使 用 的 符号 是 
“9%/%”， 是 指 在 除法 运算 中 只 保留 整数 部 分 。 


实例 ch3_3 : 余数 和 整除 运算 实例 。 


>x=9%%5 少 计 算 9 除 以 5 的 余数 

> X 

[1] 4 

>x = 9 %/% 2 TIHWONRDAZBIISDSRENERR AT 


xXx 
[1] 4 


> 


3-2-3 ”次 方 或 平方 根 
次 方 的 符号 是 “**” 或 “， 平方 根 的 计算 是 使 用 函数 sqrt ()。 
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实例 ch3_4 : 平方 、 次 方 和 平方 根 运算 实例 。 


»Xa392 做 计 算 3 的 平方 
»X23^2 大 计算 3 的 平方 


>x=8A3 ## 计 算 8 的 3 次 方 


[1] 512 
»X-Sqrt(64) # 计 算 64 的 平方 根 


>x 
8 
> x = sqrt(8) # 计 算 8 的 平方 根 


3-2-4 绝对 值 


绝对 值 的 函数 名 称 是 abs ()， 不 论 函 数 内 的 值 是 正 数 或 负数 ， 


实例 ch3_5 : 绝对 值 运算 实例 。 


> abs(10) # 计 算 19 的 绝对 值 
[1] 10 

-»X-5.5 

> y = abs(x) # 计 算 x 的 绝对 值 


>y 

[1] 5.5 

> X = -7 

> y = abs(x) # 计 算 x 的 绝对 值 


3-2-5 exp O 与 对 数 


exp O 是 指 自然 数 e 的 x 次 方 ， 其 中 e 的 近似 值 是 2.718282。 
实例 ch3_6 : exp () 运算 实例 。 


> x exp(1) # 可 列 出 自然 数 e 的 值 

> X 

[1] 2.718282 

> x exp(2) # 可 列 出 自然 数 e 的 2 次 方 
> X 

[1] 7.389056 

> x = exp(0.5) # 可 列 出 自然 数 e 的 0.5 次 方 
> X 

[1] 1.648721 

> 


对 数 有 以 下 两 种 类 型 。 


结果 均 是 正 数 。 


CHAPTER 03 R 的 基本 数学 运算 


D 以 自然 数 e 为 底 的 对 数 ，log。x = In x， 语 法 是 log O- 


2) 一 般 基 底 的 对 数 ，log。 x ， 语 法 是 log (x. m). 如 果 基 底 是 10， 也 可 使 用 另 一 个 对 数 函 数 
log10 () 取代 。 


实例 ch3_7 : 不 同 基底 的 对 数 运算 实例 。 


> X = log(2) 六 计算 以 自然 数 e 为 底 的 对 数值 
> X 

[1] 0.6931472 

>x = log(2, 10)  # 计 算 以 自然 数 10 为 底 的 对 数值 
> X 

[1] 9.30103 

> X = l0g10(2) 六 计算 以 自然 数 19 为 底 的 对 数值 
> X 

[1] 0.30103 

> x = log(2, 2) # 计 算 以 自然 数 2 为 底 的 对 数值 


> 


exp O fll log O 也 可 称 互 为 反 函 数 。 


3-2-6 科学 符号 


科学 符号 是 用 e 表示 ， 例 如 数字 12800, 实际 等 于 “1.28 * 104”， 也 可 以 用 “1.28e4” 表 示 。 
实例 ch3_8 : 科学 符号 的 运算 实例 。 


> X <- 1.28 * 10^4 
> X 

[1] 12800 

» X «- 1.28e4 

>x 

[1] 12800 

> 


数字 0.00365, KRÆFT "3.65 * 10`-3"”， 也 可 以 用 “3.65e-3” 表 示 。 
实例 ch3_9 : 男 一 个 科学 符号 的 运算 实例 。 


» X <- 3.65 * 10^-3 
>x 

[1] 0.00365 

> X <- 3.65e-3 

>x 

[1] 0.00365 

$ 


当然 也 可 以 直接 使 用 科学 符号 执行 四 则 运算 。 
实例 ch3_10 : 直接 使 用 科学 符号 的 运算 实例 。 

> x <- 6e5 / 3e2 

-X 


[1] 2000 
> 
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上 述 的 代码 表示 600000 除 以 300。 


3-2-7 ”圆周 率 与 三 角 函 数 
圆周 率 就 是 指 pis pi 是 系统 默认 的 参数 ， 其 近似 值 是 3.141593。 
实例 ch3 11 : 列 出 pi 值 的 实例 。 


> pi 
[1] 3.141593 
> 


R 语言 所 提供 的 三 角 函 数 有 许多 ， 例 如,，sin O, cos), tan O, asin O acos () 、atan () , 
sinh () cosh () , tanh () 、asinh () 、acos () 、atan (). 


实例 ch3 12 : 三 角 函 数 运算 实例 。 


> x = sin(1.0) 
>x 

[1] 0.841471 

> x = sinpi / 2) 
>s 

11 

> x = cos(1.0) 
>x 

[1] 00.5403023 

> x cos(pi) 


>x 
Da 
> 


3-2-8 VUR TLA RZ 


Rif fud EA RKE round ()。 

round (x, digits = k )， 表 示 将 实数 x， 以 四 售 五 人 方式 ， 计 算 至 第 k 位 小 数 。 另 外 ，round () 
函数 中 的 第 2 个 参数 “digits =” 也 可 以 省 略 ， 直 接 在 第 2 个 参数 位 置 输入 数字 。 
实例 ch3_13 : round () 函数 的 各 种 运用 实例 。 


> X <- round(98.562, digits = 2) 
>x 

[1] 98.56 

> x <- round(98.562, digits = 1) 
>x 

[1] 98.6 

» X «- round(98.562, 2) 

>x 

[1] 98.56 

> X <- round(98.562, 1) 

>x 

[1] 98.6 


> 
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使 用 round () 函数 时 ， 如 果 第 2 个 参数 是 负 值 ， 表 示 计 数 是 以 四 舍 五 人 取 整 数 。 例 如 ， 若 参 
数 是 “-2”， 表 示 取 整数 至 百 位 数 。 若 参数 是 “-3”, 表示 取 整 数 至 千 位 数 。 


实例 ch3_14 : 使 用 round () 函数 ,但 digits 参数 是 负 值 的 运用 实例 。 


> X «- round(1234, digits = -2) 
H 

[1] 1200 

> x <- round(1778, digits = -3) 
-X 

[1] 2000 

» X «- round(1234, -2) 

>x 

[1] 1200 

> x <- round(1778, -3) 

> X 

[1] 2000 

> 


signif ( x, digits = k )， 也 是 一 个 四 舍 五 人 的 函数 ， 其 中 x 是 要 做 处 理 的 实数 ，k 是 有 效 数字 的 


个 数 。 例 如 ，signif ( 79843.597, digits = 6 )， 代 表 取 6 个 数字 ， 从 左边 算 第 7 个 数字 以 四 舍 五 人 的 
方式 处 理 。 


实例 ch3 15 : signif () 函数 的 应 用 实例 。 


> X <- signif(79843.597, digits = 6) 
> X 

[1] 79843.6 

» X «- signif(79843.597, 6) 

>X 

[1] 79843.6 

> x <- signif(79843.597, digits = 3) 
>x 

[1] 79800 

> x <- signif(79843.597, 3) 

>x 

[1] 79800 

> 


3-2-9 近似 函数 
R 语言 有 3 个 近似 函数 。 


1) flor(x) : 可 得 到 小 于 等 于 x 的 最 近 整 数 。 所 以 , floor (234.56) 等 于 234。floor 
( -234.45 ) 等 于 -235. 


2) ceiling (x): 可 得 到 大 于 等 于 x 的 最 近 整 数 。 所 以 ， ceiling ( 234.56 ) 等 于 235。 ceiling 
( -234.45 ) 等 于 -234。 


3) tunc (x) : 可 直接 取 整 数 。 所 以 ，trunc (234.56 ) 等 于 234. trune ( -234.45 ) 等 于 -234。 
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实例 ch3_16 : floor ()、ceiling () FI trune () 函数 的 运用 实例 。 


> X <- floor(234.56) 


> X 
[1] 234 
» X «- floor(-234.45) 
> X 
[1] -235 
» X «- ceiling(234.56) 
>x 
[1] 235 
» X «- ceiling(-234.45) 
>x 
[1] -234 
> x <- trunc(234.56) 
>x 
[1] 234 
> X <- trunc(-234.45) 
>x 
[1] -234 
> 

3-2-10 阶乘 


factorial (x) 可 以 返回 x 的 阶乘 
实例 ch3_17 : factorial O 函数 的 运用 

> x <- factorial(3) 

> X 

[1] 6 

> x <- factorial(5) 

>x 

[1] 120 

> x <- factorial(7) 


>x 
[1] 5040 
> 


EXE] RE A 


M RR 语言 碰 上 多 种 计算 同时 出 现在 一 个 指令 内 时 ,除了 括号 “()” 最 优先 外 ， 其 余 计 算 优先 
次 序 如 下 。 
1) 指数 。 
2) 乘法 、 除 法 、 求 余数 ( %% )、 求 整数 w% )， 依 照 出 现 顺 序 运算 。 
3) 加法、 减法， 依照 出 现 顺 序 运 算 。 
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实例 ch3_18 : R 语言 控制 运算 的 优先 级 的 应 用 实例 。 


>x<-(5+6)*8-2 
-X 

[1] 86 
»X«-5*46**8-2 

> X 

[1] 51 


> 


无 限 大 Infinity 


R 语言 可 以 处 理 无 限 大 的 值 ， 使 用 Inf 表示 ， 如 果 是 负 无 限 大 则 是 -Inf。 其 实 只 要 将 某 一 个 数 
字 除 以 0， 就 可 获得 无 限 大 。 


实例 ch3_19 : 无 限 大 Inf 的 取得 实例 。 


»X«5/0 
>x 

[1] Inf 

> 


将 某 一 个 数字 减 去 无 限 大 Inf， 可 以 获得 负 无 限 大 -Inf。 
实例 ch3_20 : 负 无 限 大 -Inf 的 取得 实例 。 


» X «- 10 - Inf 
> X 

[1] -Inf 

> 


另 一 个 思考 ， 如 果 将 某 一 个 数字 除 以 无 限 大 Inf 或 负 无 限 大 -Inf， 结 果 是 多 少 ? 答案 是 0。 
实例 ch3_21 : 把 Inf 和 -Inf 当 作 分 母 的 应 用 实例 。 


> X <- 999 / Inf 
-X 
[1] 6 
» X «- 999 / -Inf 
>x 
[1] 0 


> 


判断 某 一 个 数字 是 否 为 无 限 大 ( 正 值 无 限 大 或 负 值 无 限 大 )， 可 以 使 用 is.infinite (x), WA x 
是 则 返回 逻辑 值 ( Logical Value) TRUE, ， 和 否则 返回 FALSE. 
实例 ch3 22 : 使 用 is.infinite O 判断 Inf 和 Inf 是 否 为 正 或 负 无 限 大 ,返回 TRUE 的 实例 。 


>x<- 10/0 
>x 
[1] Inf 
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> is.infinite(x) 
[1] TRUE 

»X«- 10 -x 

> X 

[ -Inf 

> is.infinite(x) 
[1] TRUE 


> 


实例 ch3_23 : 使 用 is.infinite O 判断 Inf 和 -Inf 是 否 为 正 或 负 无 限 大 ， 返 回 FALSE 的 实例 。 


> x <- 999 

> is.infinite(x) 
[1] FALSE 

> X <- -99999 

> is.infinite(x) 
[1] FALSE 

> 


另 一 个 有 关 的 函数 式 is.finite (x)， 如 果 数 字 x 是 有 限 的 ( 正 有 限 大 或 负 有 限 大 ) 则 返回 
TRUE, AWEH FALSE. 


实例 ch3_24 : 使 用 is.finite O 判断 一 个 数 是 否 为 有 限 大 的 实例 


> X <- 999 

> is.finite(x) 
[1] TRUE 

> X <- -99999 
> is.finite(x) 
[1] TRUE 
>x<-10/0 
> is.finiteCx) 
[1] FALSE 
»x«-10-(10/0) 
>x 

[1] -Inf 

> is.finite(x) 
[1] FALSE 


> 


A 在 其 他 程序 语言 中 ，TRUE 和 FALSE 被 称 为 布尔 值 ( Boolean Value), (BE R HAH, R 
au 的 开发 人 员 将 此 称 为 逻辑 值 ( Logical Value )。 


ERE Not a Number ( NaN ) 


在 RR 语言 中 ，Not a Number ( NaN ) 可 以 解释 为 非 数 字 或 无 定义 数字 ， 由 上 一 小 节 可 知 , f£ 
一 数字 除 以 0 可 得 无 限 大 ， 任 一 数字 除 以 无 限 大 可 得 0， 那 无 限 大 除 以 无 限 大 呢 ? 此 时 可 以 获得 
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NaN ( Nota Number )。 
实例 ch3_25 : NaN 值 的 获得 实例 。 


>X<- Inf /Inf 
> X 

[1] NaN 

- 


R 语言 将 NaN 当 作 一 个 数字 ， 可 以 使 用 NaN 参加 四 则 运算 ， 但 所 得 结果 均 是 NaN。 
实例 ch3_26 : NaN 值 的 四 则 运算 实例 。 


» X «- NaN + 999 
> X 

[1] NaN 

> x <- NaN * 2 
>x 

[1] NaN 

> 


使 用 is.nan (x) 函数 ， 可 检测 x ERA NaN, WREE TRUE, WEE FALSE. 
实例 ch3_27 : 当 is.nan () 函数 的 参数 是 NaN 时 的 运算 实例 。 


> x «- Inf / Inf 
> X 

[1] NaN 

» is.nan(x) 

[1] TRUE 

» y «- 999 

> is.nan(y) 

[1] FALSE 

> 


另外 ， 对 于 NaN 而 言 ， 无 论 使 用 is.finite O 还 是 is.infinite O 判断 ， 均 传 回 FALSE。 
实例 ch3_28 : 为 is.finite () 和 is.infinite O 函数 的 参数 是 NaN 时 的 运算 实例 。 


» X «- Inf / Inf 
>X 

[1] NaN 

> is.finite(x) 
[1] FALSE 

> is.infinite(x) 
[1] FALSE 


> 


EX Not Available ( NA) 


Not Available 也 可 被 称 为 缺失 值 NA， 我 们 可 以 将 NA 当 作 一 个 有 效 数 值 ， 甚 至 可 以 将 此 值 应 
用 在 四 则 运算 中 ,， 不过， 通常 计算 结果 是 NA。 
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实例 ch3_29 : 缺失 值 NA 的 运算 实例 。 


>x <- NA 

> y <- NA + 100 
» 

[1] NA 

>z <- NA / 10 
>z 

[1] NA 


> 


R 语言 提供 的 isana (x) 函数 可 判断 x 是 否 为 NA， 如 果 是 则 返回 TRUE， 否则 返回 FALSE。 
实例 ch3_30 : is.na () 函数 的 参数 是 缺失 值 NA 和 一 般 值 的 运算 实例 。 


> X <- NA 
> is.na(x) 
[1] TRUE 
» X «- 1000 
> is.na(x) 
[1] FALSE 


对 于 NaN 而 言 ， 使 用 is.na O 判断 ， 可 以 得 到 TRUE。 
实例 ch3_31 : is.na () 函数 的 参数 是 NaN 的 运算 实例 。 


» X «- Inf / Inf 
> X 

[1] NaN 

» is.na(x) 

[1] TRUE 


> 


一 、 判 断 题 
) 1. 有 以 下 两 个 命令 。 
> x1 <- 9%% 5 


> x2 <- 9 %/% 2 
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上 述 两 个 命令 被 执行 后 ，xl 和 x2 的 值 是 相同 的 ， 均 是 4。 


有 以 下 两 个 命令 。 
»X1«-2^3 
> X2 <- sqrt(64) 


上 述 两 个 命令 被 执行 后 ，xl 和 x2 的 值 是 相同 的 ， 均 是 8. 


.有 以 下 两 个 命令 。 
> x1 <- round(88.882, digits = 2) 


» X2 «- round(88.882, 2) 


上 述 两 个 命令 被 执行 后 ，xl 和 x2 的 值 是 相同 的 ， 均 是 88.88。 


有 如 下 命令 。 


> X «- round(1560.998, digits = -2) 
上 述 命令 被 执行 后 ，x 的 值 是 1600。 
. 有 如 下 命令 。 


> x <- factorial(3) 


上 述 命 令 被 执行 后 ，x 的 值 是 8。 


有 如 下 命令 。 


> X <- 10 / Inf 


上 述 命令 被 执行 后 ，x 的 值 是 0。 
. 有 以 下 两 个 命令 。 


»x«-999/0 
» is.infinite(x) 


上 述 命令 的 执行 结果 是 FALSE。 
. 有 如 下 命令 。 


> x <- Inf / Inf 


上 述 命令 被 执行 后 ，x 的 值 是 1。 
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有 以 下 两 个 命令 。 
> X <- NA + 999 
> is.na(x) 


上 述 命令 的 执行 结果 是 TRUE, 


. 有 以 下 两 个 命令 。 


> X <- 888 * 999 
> is.finite(x) 


上 述 命令 的 执行 结果 是 TRUE, 


二 、 单 选 题 
下 列 哪 一 个 是 R 语言 不 合法 的 变量 名 称 ? 


( 
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X2: 


A. x3 B.x.3 

以 下 命令 会 得 到 哪 种 数值 结果 ? 
> -3+2*%3- 42/8 
A.[1]4 B. [1]2 

以 下 命令 会 得 到 哪 种 数值 结果 ? 
> round(pi, 2) 
A.[1]3.1415926 — B.[l]pi 

以 下 命令 会 得 到 哪 种 数值 结果 ? 
> 36 ** 0.5 
A. [1] 18 B. [1] 6 

以 下 命令 会 得 到 哪 种 数值 结果 ? 
> signif(5678.778, 6) 





A. [1] 5678.78 

C. [1] 5678.778 

以 下 命令 会 得 到 哪 种 数值 结果 ? 
> floor(789.789) 

A. [1] 789.8 B. [1] 789.789 
以 下 命令 会 得 到 哪 种 数值 结果 ? 
> X «- Inf / 1000 


A. [1]0 B. [1] Inf 


C. .x3 


C. [1]3 


C. [1] 3.14 


C. [1]9 


B. [1] 5678.77 
D. [1] 5678.778000 


C. [1] 789 


C. [1] NA 


D.[1] 1 


D. [1]3 


D. [1]3 


D. [1] 790 


D. [1] NaN 
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多 选 题 
) 1.， 下 列 哪 些 命令 的 执行 结果 是 TRUE? (选择 两 项 ) 
A. > X <- Inf - Inf B. > x «- Inf + Inf 
> is.infinite(x) > is.infinite(X) 
C. > x <- Inf + 1010 D. » x «- Inf / Inf 
» is.na(x) > is.nan(x) 
E. > X «- 1010 
» is.nan(x) 


实际 操作 题 ( 如 果 题 目 有 描述 不 周详 的 ， 请 自行 假设 条 件 ) 

求 99 的 平方 、 立 方 和 平方 根 。 

x 2 345.678， 将 x 放 入 round ()、signf ()， 使 用 默认 值 测试 ， 并 列 出 结果 。 
重复 上 一 习题 ， 将 参数 digits 依次 从 -2 设置 到 2， 并列 出 结果 。 

x= 674.378， 将 x 放 和 floor ()、ceil O 和 trune ()， 使 用 默认 值 测试 ， 并 列 出 结果 。 
重复 上 一 习题 ,将 x 改 为 负 值 -674.378， 并 列 出 结果 。 

计算 下 列 命令 的 结果 。 

(1)Inf+ 100。 





(2)Inf - Inf+10。 
(3) NaN + Inf. 

( 4) Inf- NaN, 

(5) NA + Inf. 
(6)Inf - NA. 

(7) NaN * NA. 
将 上 述 数据 (a-g) 的 执行 结果 用 下 列 函 数 测试 并 列 出 结果 。 
(1) is.na ()。 

(2) is.nan ()。 

( 3) is.finite ()。 

( 4) is.infinite (). 
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考虑 Inf、-Inf、NA 的 向 量 运算 
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R 语言 一 一 迈 向 大 数据 之 路 


R 语言 最 重要 的 特色 是 向 量 (Vector) 对 象 的 概念 。 如 果 你 学 过 其 他 计算 机 语言 ， 应 该 知道 一 
维 数组 ( Array ) 的 概念 ， 其 实 所 谓 的 向 量 对 象 就 是 类 似 一 组 一 维 数组 的 数据 ， 在 此 组 数据 中 ， 每 
个 元 素 的 数据 类 型 是 一 样 的 。 不 过 向 量 对 象 的 使 用 比 其 他 高 级 语言 灵活 太 多 了 ，R 的 开发 团队 将 
此 一 维 数组 数据 称 为 向 量 (Vector) 对 象 。 

说 穿 了 ，R 语言 就 是 一 种 处 理 向 量 的 语言 。 

EX R 语言 中 最 小 的 工作 单位 是 向 量 对 象 ， 至 于 前 面 章节 笔者 当 作 范 例 使 用 的 一 些 对 象 变 
量 ， 从 技术 上 讲 可 将 那些 对 象 变量 看 作 是 一 个 只 含 一 个 元 素 的 向 量 对 象 变量 。 至 今 为 止 ， 在 输出 
每 一 个 数据 时 ， 首 先 出 现 的 是 “[ 1 ] ， 中 括号 内 的 “1” 表 示 接 下 来 是 从 对 象 的 第 1 个 元 素 开始 输 
出 的 。 对 数学 应 用 而 言 ， 向 量 对 象 元 素 大 都 是 数值 数据 型 的 ，R 的 更 重要 的 功能 是 向 量 对象 元 素 
可 以 是 其 他 数据 型 的 ， 本 书 将 在 以 后 章节 中 一 一 介绍 。 


UE] 数 什 型 的 向 量 对 象 


数值 型 的 向 量 对 象 可 分 为 规则 型 的 数值 向 量 对 象 或 不 规则 型 的 数值 向 量 对 象 。 


4-1-1 建立 规则 型 的 数值 向 量 对 象 应 使 用 序列 符号 

从 起 始 值 到 最 终 值 ， 每 次 递增 1， 如 果 是 负 值 则 每 次 增加 -1。 例 如 从 1 到 5， 可 用 1:5 的 方式 
表达 。 从 11 到 16， 可 用 11:16 的 方式 表达 。 在 “1:5” 或 “11:16” 的 表达 式 中 的 “:” 符 号 ， 即 冒 
号 ,在 R 语 言 中 称 其 为 序列 符号 (Sequence )。 
实例 ch4_1 : 使 用 序列 号 “:” 建 立 向 量 对 象 。 


> X <- 1:5 # 设 定向 量变 量 对 象 包含 1 到 5 共 5 个 元 素 
> X 

[122345 

» X «- 11:16 VIRES SERIES G$112/163t6 7 70 X 
>X 


[1] 11 12 13 14 15 16 
> 


这 种 方式 也 可 以 应 用 于 负 值 ， 每 次 增加 -1。 例如， 从 -3 到 -7， 可 用 -3:-7 的 方式 表达 。 
实例 ch4_2 : 使 用 序列 号 建立 含 负数 的 向 量 对 象 。 


> x <- -3:-7 少 设 定向 量变 量 对 象 包含 -3 到 -7 共 5 个 元 素 
> X 

[1] -3 -4 -5 -6 -7 

> 


同 理 ， 这 种 方式 也 可 以 应 用 于 实数 ， 每 次 增加 正 1 或 -1。 
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实例 ch4_3 : 使 用 序列 号 建立 实数 的 向 量 对 象 。 
> x <- 1.5:5.5 # 设 定向 量变 量 对 象 包含 1.5 到 5.5 共 5 个 元 素 


-X 

[1] 1.5 2.5 3.5 4.5 5.5 

»X«--1.:-3.8 — 关 设 定向 量变 量 对 象 包含 -1.8 到 -3.8 共 3 个 元 素 

>x 

[1] -1.8 -2.8 -3.8 

在 建立 向 量 对 象 时 ， 如 果 写 成 1.53:4.7， 结 果 会 如 何 呢 ? 这 相当 于 建立 含 下 列 元 素 的 向 量 对 
象 ，1.5、2.5、3.5、4.5 JE 4 个 元 素 ， 至 于 多 余部 分 即 4.5 至 4.7 之 间 的 部 分 则 可 不 理会 。 若 向 量 
对 象 的 元 素 为 负 值 时 ， 依 此 类 推 。 
实例 ch4_4 : 另 一 个 使 用 序列 号 建立 实数 的 向 量 对 象 。 


> X <- 1.5:4.7 六 设 定向 量变 量 对 象 包含 1.5 到 4.5 共 4 个 元 素 
-X 

[1] 1.5 2.5 3.5 4.5 

>x <- -1.3:-5.2 TiEBSSENOIR GR-1.32]-4.3354 1 7: 
> X 

[ -1.3 -2.3 -3.3 -4.3 

> 


4-1-2 简单 向 量 对 象 的 运 


向 量 对 象 的 一 个 重要 功能 是 向 量 对 象 在 执行 运算 时 , 向量 对 象 内 的 所 有 元 素 将 同时 执行 运算 。 
实例 ch4_5 : 将 每 一 个 元 素 加 3 的 执行 情形 。 


>x<- 1:5 
>y<-x+3 


> 
[1] 45678 
> 
一 个 向 量 对 象 也 可 以 与 男 一 个 向 量 对 象 相 加 。 
实例 ch4_6 : 向 量 对 象 相 加 的 实例 。 
>X<- 1:5 
>y <- x+ 6:10 大 设 定 x 向 量 加 6:10 向 量 ， 结 果 设 定 给 向 量 y 
>y 


[1] 7 9 11 13 15 
- 


读 至 此 节 ， 相 信 各 位 读者 一 定 已 经 感觉 到 有 语言 的 强大 功能 了 ， 如 果 上 述 指令 使 用 非 向 量 语 
言 ， 则 需 使 用 循环 指令 处 理 每 个 元 素 ， 要 好 几 个 步骤 才 可 完成 。 在 执行 向 量 对 象 元 素 的 运算 时 ， 
也 可 以 处 理 不 相同 长 度 的 向 量 对 象 运算 ,但 先决 条 件 是 较 长 的 向 量 对 象 的 长 度 是 较 短 的 向 量 对 象 
的 长 度 的 倍数 。 如 果 不 是 倍数 ， 则 会 出 现 错误 信息 。 
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实例 ch4_7 : 不 同 长 度 的 向 量 对 象 相 加 ， 出 现 错误 信息 的 实例 。 


> X <- 1:5 

> y<- Xx+5:8 

Warning message: 

In x + 5:8 : 较 长 的 对 象 长 度 并 非 较 短 对 象 长 度 的 倍数 

由 于 上 述 较 长 的 向 量 对 象 有 5 个 元 素 ， 较 短 向 量 对 象 有 4 个 元 素 ， 所 以 较 长 向 量 的 长 度 不 是 
较 短 向 量 的 长 度 的 倍数 ， 因 此 最 后 执行 后 出 现 警告 信息 。 
实例 ch4_8 : 不 同 长 度 的 向 量 对 象 相 加 ， 较 长 向 量 对 象 的 长 度 是 较 短 向 量 对 象 的 长 度 的 倍数 的 运 


> X <- 1:3 

> y<-x+1:6 
xy 
[1]246 579 
> 


上 述 的 运算 规则 是 ， 向 量 对 象 y 的 长 度 与 较 长 的 向 量 对 象 的 长 度 相 同 ， 其 长 度 是 6， 较 长 向 
量 对 象 的 第 1 个 元 素 与 1:3 的 1 相 加 ， 较 长 向 量 对 象 的 第 2 个 元 素 与 1:3 的 2 相 加 ， 较 长 向 量 对 象 
的 第 3 个 元 素 与 1:3 的 3 相 加 ， 较 长 向 量 对 象 的 第 4 个 元 素 与 1:3 的 1 相 加 ， 较 长 向 量 对 象 的 第 5 
个 元 素 与 1:3 的 2 相 加 ， 较 长 向 量 对 象 的 第 6 个 元 素 与 1:3 的 3 相 加 。 未 来 如 果 碰 上 不 同 倍数 的 情 
况 ， 运算 规 则 可 依 此 类 推 。 
实例 ch4_9 : 下 列 是 另 一 个 不 同 长 度 向 量 对 象 相 加 的 实例 。 


> X <- 1:5 
>y<-5 

>x+y 

[1] 6 7 8 9 10 
> 


在 上 述 实例 中 ,，x 向 量 对 象 有 5 个 元 素 ，y 向 量 对 象 有 1 个 元 素 ， 碰 上 这 种 加 法 ， 相 当 于 每 个 
x 向 量 元 素 均 加 上 y 向 量 的 元 素 值 。 过 去 的 实例 ， 在 输出 时 ， 笔 者 均 直 接 输 入 向 量 对 象 变量 ， 即 可 
在 Console 窗口 打印 此 向 量 对 象 变量 的 值 ， 在 此 例 中 ， 可 以 看 到 第 3 列 ， 即 使 仍 是 一 个 数学 运算 ， 
Console 窗口 仍 将 打印 此 数学 运算 的 结果 。 


4-1-3 ”建立 向 量 对 象 函 数 seq O 
seq O 函数 可 用 于 建立 一 个 规则 型 的 数值 向 量 对 象 ， 它 的 使 用 格式 如 下 所 示 。 


seq ( from, to, by = width, length.out 2 numbers ) 
上 述 from 是 数值 向 量 对 象 的 起 始 值 ，to 是 数值 向 量 对 象 的 最 终 值 ，by 则 指出 每 个 元 素 的 增 
。 如 果 省 略 by 参数 ， 同 时 没有 length.out 参数 存在 ， 则 增值 是 1 或 -1。length.out 参数 字段 可 设 
seq () 函数 所 建立 的 元 素 个 数 。 





实例 ch4 10 : 使 用 seq O 建立 规则 型 的 数值 向 量 对 象 。 


> seq(1, 9) ## 建 立 1:9 向 量 
[1]123456789 

> seq(1, 9, by = 2) SERXZIZOBSSÉAZRSSE 
[113579 

> seq(1, 9, by = pi) qERIIZOSSÉSpitsm 

[1] 1.000000 4.141593 7.283185 

> seq(1.5, 4.5, by = 0.5) dERIII.524.5/928750.589/588 


[1] 1.5 2.0 2.5 3.0 3.5 4.0 4.5 


> seq(1, 9, length.out = 5) ggRulSO9BSIXTÉCSSINIONE 


[1113579 


> 


4-1-4 ”连接 向 量 对 象 函 数 c O 
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c () 函数 中 的 c 是 concatenate 的 缩写 。 这 个 函数 并 不 是 一 个 建立 向 量 对 象 的 函数 ， 只 是 一 个 


将 向 量 元 素 连 接 起 来 的 函数 。 

实例 ch4_11 : 使 用 e O 函数 建立 一 个 简单 的 向 量 对 象 。 
> x <- c(1,3,7,2,9) g— T ESTRUM 
问 13729 


> 


上 述 x 是 一 个 向 量 对 象 ， 共有 5 个 元 素 , 分 别 是 1、3、7、2、9。 


适当 地 为 变量 取 一 个 容易 记 的 变量 名 称 ， 可 以 增加 程序 的 可 读 性 。 例 如 ,我 们 想 建立 NBA 球 
星 Lin，2016 年 前 6 场 赛季 进 球 数 的 向 量 对 象 ， 那么 假设 他 的 每 场 进 球 数 如 下 所 示 。 


7,8,6, 11,9, 12 


此 时 可 用 baskets.NBA2016.Lin 当 变 量 名 称 ， 相 信 这 样 处 理 后 ， 即 使 程序 放 再 久 ， 也 可 以 轻易 


了 解 程序 内 容 。 

实例 ch4_12 : 建立 NBA 球星 进 球 数 的 向 量 对 象 。 
> baskets.NBA2016.Lin «- c(7, 8, 6, 11, 9, 12) 
» baskets.NBA2016.Lin 
[1] 7 8 611 912 


> 


如 果 球 星 Lin 的 进 球 皆 是 2 分 球 ， 则 他 每 场 得 分 如 下 。 


实例 ch4_13 : 计算 NBA 球星 的 得 分 。 


> baskets.NBA2016.Lin <- c(7, 8, 6, 11, 9, 12) 
> scores.NBA2016.Lin <- baskets.NBA2016.Lin * 2 
» scores.NBA2016.Lin 
[1] 14 16 12 22 18 24 


> 


假设 队友 Jordon 前 6 场 进 球 数 分 别 是 10, 5, 9, 12, 7, 11， 我 们 可 以 用 如 下 方式 计算 每 场 两 个 人 
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的 得 分 总 计 。 
实例 ch4_14 : 计算 NBA 球星 Lin 和 Jordon 的 每 场 总 得 分 。 


> baskets.NBA2016.Lin «- c(7, 8, 6, 11, 9, 12) 

» baskets.NBA2016.Jordon «- c(10, 5, 9, 12, 7, 11) 

> total «- ( baskets.NBA2016.Jordon + baskets.NBA2016.Lin ) * 2 
» total 

[1] 34 26 30 46 32 46 

> 


先前 介绍 可 以 使 用 ce O 函数 ， 将 元 素 连接 起 来 ， 其 实 也 可 以 将 两 个 向 量 对 象 连 接 起 来 ， 下 面 
是 将 Lin 和 Jordon 进 球 连接 起 来 ， 结 果 是 一 个 含 12 个 元 素 的 向 量 对 象 的 实例 。 
实例 ch4_15 : (EH c O 函数 建立 向 量 对 象 ， 其 中 c() 函数 内 有 多 个 向 量 对 象 参数 。 


> all.baskets.NBA2016 «- c(baskets.NBA2016.Lin, baskets.NBA2016.Jordon) 
» all.baskets.NBA2016 

[1 7 861191210 5 912 711 

> 


从 上 述 执行 结果 可 以 看 到 ，e O 函数 保持 了 每 个 元 素 在 向 量 对 象 内 的 顺序 ， 这 个 功能 很 重 
要 ， 因 为 未 来 我 们 要 讲解 如 何 从 向 量 对 象 中 存 取 元 素 值 。 


4-1-5 重复 向 量 对 象 函 数 rep O 


如 果 向 量 对 象 内 某 些 元 素 是 重复 的 ， 则 可 以 使 用 rep O 函数 建立 这 类 型 的 向 量 对 象 ， 它 的 使 
用 格式 如 下 所 示 。 

rep (x, times = 重复 次 数 each = 每 次 每 个 元 素 的 重复 次 数 , length.out = 向 量 长 度 ) 

如 果 rep O 函数 内 只 含有 x 和 times 参数 ， 则 “times =” 参 数 可 省 略 。 
实例 ch4_16 : 使 用 rep O 函数 建立 向 量 对 象 的 应 用 。 


> rep(5, 5) # 重 复 向 量 元 素 5， 共 5 次 
[1]55555 

> rep(5, times = 5) # 重 复 向 量 元 素 5， 共 5 次 
[1055555 

» rep(1:5, 3) # 重 复 向 量 1:5， 共 3 次 


[(1]123451234512345 

> rep(1:3, times = 3, each = 2) # 重 复 向 量 1:3， 共 3 次 ， 每 次 每 个 元 素 出 现 z 次 
[1]112233112233112233 

> rep(1:3, each = 2, length.out = 8)  ”# 重 复 向 量 1:3， 每 个 元 来 出 现 2 次 ， 每 次 向 量 元 来 个 数 是 8 
[111223311 


> 


4-1-6 numeric () 函数 


numeric () 也 是 一 个 建立 函数 ， 主 要 是 可 用 于 建立 一 个 固定 长 度 的 向 量 对 象 ， 同 时 向 量 对 象 
元 素 的 默认 值 是 0。 
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实例 ch4_17 : 建立 一 个 含 10 个 元 素 的 向 量 对 象 ， 同 时 这 些 向 量 对 象 元 素 的 值 缘 为 0。 


> X «- numeric(10) HBeuz—4 E1077 EBAONISE 

> X # 验 证 结果 
[120000000000 

> 


4-1-7 程序 语句 跨行 的 处 理 


在 本 章 4-1-5 节 的 最 后 一 个 实例 中 ， 可 以 很 明显 看 到 rep O 函数 包含 说 明文 字 已 超出 一 行 ， 
其 实 R 语言 是 可 以 识别 这 行 的 命令 未 完 ， 下 一 列 是 相同 行 的。 除了 上 述 情况 外 ， 下 列 是 几 种 可 能 
发 生 程序 跨行 的 情况 。 
T) ”该 行 以 数学 符号 ( +、-、*、/ ) 作 结尾 ， 此 时 R 语言 的 编译 程序 会 知道 下 一 行 是 接续 此 行 的 。 


实例 ch4_18 : 以 数学 符号 作 结尾 ， 了 解 程序 语句 跨行 的 处 理 。 


> all.baskets.NBA2016 <- baskets.NBA2016.Jordon + 
* baskets .NBA2016.Lin 
> all.baskets.NBA2016 

[1] 17 13 15 23 16 23 

> 


2) 使 用 左 括号 “("，R 编辑 器 会 知道 在 下 一 行 出 现 的 片断 数据 是 同一 括号 内 的 命令 ， 直 至 出 现 
TR UY. Hed e ok. 
实例 chá 19 : 使 用 左 括号 “ ”和 右 括 号 “六 ， 了 解 程序 跨 列 的 处 理 。 


> X «- rep(1:5, times = 2,) 

» X «- rep(1:5, times - 2, 

* each = 2) 

> X 
[1]11223344551122334455 


3) 字符 串 是 指 双 引号 间 的 文字 字符 ,在 设 定 字符 串 时 ， 如 果 有 了 第 一 个 双 引 号 ， 但 尚未 出 现 第 
二 个 双 引 号 ，R 语言 编辑 器 可 以 知道 下 一 行 出 现 的 字符 串 是 同一 字符 串 向 量变 量 的 数据 ， 但 
此 时 换行 字符 “/m ”将 被 视 为 字符 串 的 一 部 分 。 


@ 有 关 字 符 串 数据 的 概念 ， 将 在 4-4 节 说 明 。 


实例 ch4_20 : 使 用 字符 串 ， 了 解 程序 语句 跨行 的 处 理 。 


> coffee.Knowledge «- "Coffee is mainly produced 

* in frigid regions." 

» coffee.Knowledge 

[1] "Coffee is mainly produced\nin frigid regions." 
- 
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DE) 常见 向 量 对 象 的 数学 运算 函数 


研读 至 此 ， 如 果 你 学 过 其 他 高 级 计算 机 语言 ， 你 会 发 现 向 量 对 象 变 量 已 经 取代 了 一 般 计算 机 
程序 语言 的 变量 ,这 是 一 种 新 的 思维 ， 同 时 如 果 你 阅读 本 节 的 常用 向 量 对 象 的 数学 运算 函数 后 ， 
你 将 发 现 为 何 R 这 么 受到 欢迎 。 


常见 运算 函数 
sum () : 可 计算 所 有 元 素 的 和 。 
max () : 可 计算 所 有 元 素 的 最 大 值 。 
min () : 可 计算 所 有 元 素 的 最 小 值 。 





mean O : 可 计算 所 有 元 素 的 平均 值 。 
实例 ch4_21 : sum (), max O , min () 和 mean () 函数 的 应 用 


> baskets.NBA2016.Lin «- c(7, 8, 6, 11, 9, 12) 


> sum(baskets .NBA2016.Lin) # 计 算 Lin 的 总 进 球 数 

partan .NBA2016.Lin) IERWLL nS CREER C 
nO AR .NBA2016.Lin) # 计 算 Lin 的 最 低 进 球 数 
a a ERO # 计 算 Lin 的 平均 进 球 数 


[1] 8.833333 


> 
此 外 ， 这 几 个 函数 也 可 以 在 括号 内 放 上 几 个 向 量 对 象 变量 执行 运算 。 
实例 ch4_22 : sum ()、max () 和 min O 函数 的 参数 含有 多 个 向 量 对 象 变量 的 应 用 。 


> baskets.NBA2016.Jordon <- c(10, 5, 9, 15, 7, 11) 

» baskets.NBA2016.Lin «- c(7, 8, 6, 11, 9, 12) 

> sum(baskets.NBA2016.Lin, baskets.NBA2016.Jordon) # 计 算 2 人 的 总 进 球 数 
[1] 110 

> max(baskets.NBA2016.Lin, baskets.NBA2016.Jordon) # 计 算 2 人 的 最 高 进 球 数 
[1] 15 

> min(baskets.NBA2016.Lin, baskets.NBA2016.Jordon) # 计 算 2 人 的 最 低 进 球 数 
[1] 5 


> 
2. prod () 函数 
prod () : 计算 所 有 元 素 的 积 。 

实例 ch4_23 : 使 用 prod () 执行 阶乘 的 运算 。 


> prod(1:5) TIXAIESIS: 相当 于 factoriatl(C5) 
[1] 120 
- 
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这 个 函数 可 以 用 在 排列 组 合 ， 假 设 有 5 个 数字 ,请问 有 几 种 组 合 。 在 实际 操作 前 ， 各 位 可 以 


先 简 化 ， 假 设 有 两 个 数字 ， 


会 有 多 少 种 排列 方式 ? 很 容易 ， 是 两 种 排列 方式 。 那 有 3 个 数字 呢 ? 


是 6 种 排列 方式 。 如 果 是 4 个 数字 呢 ? 是 24 种 排列 方式 。 
实例 ch4_24 : 有 2、3 或 4 个 数字 ,计算 排列 组 合 方法 有 多 少 种 的 应 用 。 


> prod(1:2) 


3. 累积 运算 函数 


cumsum () : 计算 所 有 元 素 的 累积 和 。 
cumprod () : 计算 所 有 元 素 的 累积 积 。 
cummax () : 可 返回 各 元 素 从 向 量 起 点 到 该 元 素 位置 间 所 有 元 素 的 最 大 值 。 
cummin () : 可 返回 各 元 素 从 向 量 起 点 到 该 元 素 位 置 间 所 有 元 素 的 最 小 值 。 


实例 ch4_25 : 累积 函数 的 应 用 。 


> baskets.NBA2016.Jordon 


[1]10 5 915 711 


> cumsum(baskets .NBA2016. Jordon) 


[1] 10 15 24 39 46 57 


> cumprod(baskets .NBA2016. Jordon) 
[1 10 50 450 6750 47250 519750 
» cummax(baskets .NBA2016. Jordon) 


[1] 10 10 10 15 15 15 


> cummin(baskets .NBA2016. Jordon) 


[1]10 5 5 5 5 5 


> 


4. 差 值 运算 函数 


diff () : 返回 各 元 素 与 下 一 个 元 素 的 差 。 
由 于 是 传 回 每 个 元 素 与 下 一 个 元 素 的 差 值 ,所 以 结果 向 量 对 象 会 比 原先 向 量 对 象 少 一 个 元 素 。 


实例 ch4 26 : diff () 函数 的 应 用 。 


> baskets.NBA2016.Jordon 


[1] 10 5 915 711 


» diff(baskets.NBA2016.Jordon) 


[1] -5 4 6-8 4 
> 


5. 排序 函数 


sort ( x, decreasing = FALSE ) : 默认 是 从 小 排 到 大 ， 所 以 如 果 是 从 小 排 到 大 ， 则 可 以 省 略 
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decreasing 参数 。 如 果 设 定 “decreasing = TRUE”， 则 是 从 大 排 到 小 。 

rank () : 传 回 向 量 对 象 ， 这 个 向 量 对 象 的 内 容 是 原 向 量 对 象 的 各 元 素 在 原 向 量 对 象 按 从 小 排 
到 大 排序 后 所 得 向 量 对 象 中 的 位 次 。 

rev () : 这 个 函数 可 将 向 量 对象 颠 倒 排 列 。 
实例 ch4_27 : 排序 函数 的 应 用 。 


> baskets.NBA2016.Jordon 

[2010 5 915 711 

> sort(baskets.NBA2016. Jordon) SJUNHESEX. 
57 9101115 

> sort(baskets.NBA2016.Jordon, decreasing = TRUE) ”# 从 大 排 到 小 
[111511109 9 7 5 

> rank(baskets .NBA2016. Jordon) 

[110413625 


> 


实例 ch4_28 : 向 量 颠 倒 排 列 的 应 用 。 


> X <- c(7，11，4，9，6) 
> rev(x) 

[1] 6 9 411 7 

> 


6. 计算 向 量 对 象 长 度 的 函数 
length () : 可 计算 向 量 对 象 的 长 度 ， 也 就 是 向 量 对 象 元 素 个 数 。 
实例 ch4_29 : 计算 向 量 对 象 的 长 度 。 


> baskets.NBA2016. Jordon PRREEOROTRAF 
CH 19 5 915 70 

> x <- baskets.NBA2016. Jordon 35] LIE BIER TCI C 
» length(x) 

[116 

- 


很 明显 向 量 对 象 的 元 素 有 6 个 ， 所 以 传 回 长 度 是 6。 
7. 基本 统计 函数 
sd O : 计算 样本 的 标准 偏差 。 
var O : 计算 样本 的 变异 数 。 
实例 ch4_30 : 基本 统计 函数 的 使 用 。 
> sd(c(11, 15, 18)) 
[1] 3.511885 
» var(14:16) 
[1] 1 


- 
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DNE] 考点 Inf、-Inf、NA 的 向 量 运算 


前 一 小 节 所 介绍 的 向 量 对 象 是 允许 元 素 含有 正 无 限 大 mf、 负 无 限 大 -nf 和 缺失 值 NA (Not 


Available )。 任 何 整数 或 实数 值 与 Inf 相 加 , 结果 均 是 nfo 任何 整数 或 实数 值 与 -Inf 相 加 , 结果 均 是 -Inf。 
实例 ch4_31 : 向 量 对 象 运算 ,其 中 函数 内 含 Inf 和 -Inf。 


> max(c(43, 98, Inf)) 
[1] Inf 

» sum(c(33, 98, Inf)) 
[1] Inf 

» min(c(43, 98, Inf)) 
[1] 43 

» min(c(43, 98, -Inf)) 
[1] -Inf 

> sum(c(65, -Inf, 9995) 
[1] -Inf 

- 


如 果 函 数 中 的 向 量 对 象 的 参数 包含 NA， 则 运算 结果 是 NA. 
实例 ch4_32 : 向 量 对 象 运算 ， 其 中 函数 的 参数 内 含 NA。 
> max(c(98, 54, 123, NA)) 


[1] NA 
> 


为 了 克服 向 量 对 象 的 元 素 可 能 有 缺失 值 NA 的 情形 ， 通 常 在 函数 内 加 上 “narm = TRUE” 参 
数 ， 这 样 当 函数 碰 上 有 向 量 对 象 的 参数 是 NA 时 ， 也 可 正常 运算 了 。 
实例 ch4_33 : 向 量 对 象 运算 ， 其 中 向 量 对 象 的 元 素 内 含 NA， 同 时 函数 的 参数 含 “namm = TRUE”, 


> max(c(98, 54, 123, NA), na.rm = TRUE) 


[1] 123 

> sum(c(100, NA, 200), na.rm = TRUE) 
[1] 300 

> min(c(98, 54, 123, NA), na.rm = TRUE) 
[1] 54 


> 


特别 需要 注意 的 是 ，diff O 函数 与 累积 函数 cummax () 和 cummin ()， 无 法 使 用 去 掉 缺 失 值 
NA 的 参数 “na.rm = TRUE" 


实例 ch4_34 : diff O 和 累积 函数 无 法 使 用 “na.rm = TRUE” 人 参数 的 实例 。 


> Xx <- c(9, 7, 11, NA, 1) 
» cummin(x) 

[1] 9 7 7NANA 

» cummax(x) 

[1] 9 9 11 NA NA 

> diff(x) 

[1] -2 4 NA NA 


> 
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上 述 cummin () 和 cummax () 函数 由 于 计算 到 第 4 个 向 量 对 象 的 元 素 碰 上 NA， 自 此 以 后 的 
结果 皆 以 NA 表示 。 对 于 diff O 函数 而 言 ， 第 3 个 元 素 11 和 第 4 个 元 素 NA 比较 是 传 回 NA， 第 
4 个 元 素 NA 和 第 5 个 元 素 1 比较 也 是 传 回 NA。 


UN R 语言 的 字符 串 数据 的 属性 


至 今 所 介绍 的 向 量 对 象 数据 大 都 是 整数 ， 其 实 常见 的 R 语言 是 可 以 有 下 列 数 据 型 态 的 。 

integer : 整数 。 

double : R 语言 在 处 理 实数 运算 时 ,默认 是 用 双 倍 精度 实数 计算 和 储存 。 

character : FP. 

处 理 字符 串 向 量 对 象 与 处 理 整 数 向 量 对 象 类 似 ， 可 以 使 用 c() 函数 建立 字符 串 向 量 ， 应 特别 
留意 字符 串 可 以 用 双 引 号 (“”) 也 可 以 用 单 引号 C) 包 夹 。 
实例 ch4_35 : 建立 一 个 字符 串 向 量 对 象 ， 并 验证 结果 ， 本 实例 同时 用 双 引号 C") 和 单 引号 Ch) 
包 夹 。 


> X «- c("Hello R World") 
>x 

[1] "Hello R World" 

> x.New <- ('Hello R World') 
> x.New 

[1] "Hello R World" 

> 


实例 ch4_36 : 另外 两 种 字符 串 向 量 对 象 的 建立 。 
> Xi e oC, "0 "6^ V "1*5, "0) 


> xi 
[1J "H" "e" "u" "1 





> x2 <- c("Hello", "World") 
> XZ 

[1] "Hello" "R" "World" 

> 


本 章 4-2 节 所 介绍 的 length O 函数 也 可 应 用 于 字符 串 向 量 对 象 ， 可 由 此 了 解 向 量 对 象 的 长 度 
( 即 元 素 的 个 数 )。 请 留意 ， 必 须 接着 上 述 实 例 ， 执 行 下 列 实例 。 
实例 ch4_37 : 延续 上 一 个 实例 ， 计 算 向 量 对 象 的 长 度 。 


> length(x) 
[0] 1 
> length(x1) 
a 5 
> length(x2) 
i] 3 


> 
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nchar () 函数 可 用 于 列 出 字符 串 向 量 对 象 每 一 个 元 素 的 字符 数 。 


实例 ch4_38 : 延续 上 一 个 实例 ， 计 算 向 量 对 象 每 一 个 元 素 的 字符 数 。 


> nchar(x) 
[1] 13 

» nchar(x1) 
站 可 二 天 二 生硬 
> nchar(x2) 
[11515 

> 


对 上 述 两 个 实例 的 运行 结果 进行 综合 整理 ， 结 果 如 下 所 示 。 

"Hello R World" : 向 量 对 象 的 长 度 是 1， 字 符 数 是 13。 

"HU Ue" "D" UI". "o" : 向 量 对 象 的 长 度 是 S， 每 一 个 元 素 的 字符 数 是 1。 

“Hello” “R” “World” : 向 量 对 象 的 长 度 是 3， 每 一 个 元 素 的 字符 数 分 别 是 5、1、5。 


DE 探索 对 象 的 属性 


4-5-1 探索 对 象 元 素 的 属性 


H, 


至 今 笔者 已 介绍 整数 向 量 对 象 、 实 数 向 量 对 象 、 字 符 串 向 量 对 象 。 在 R 语言 程序 的 设计 过 程 
可 能 会 有 一 时 无 法 知道 对 象 变量 元 素 属性 的 情形 ， 这 时 可 以 使 用 下 列 函 数 判断 对 象 属性 ， 判 


断 结果 如 果 是 真 则 传 回 TRUE， 否 则 传 回 FALSE. 


口 
口 
口 
口 


is.integer () : 用 于 判断 对 象 元 素 是 否 为 整数 。 
is.numeric () : 用 于 判断 对 象 元 素 是 否 为 数字 。 
is.double () : 用 于 判断 对 象 元 素 是 否 为 双 倍 精度 实数 。 
is.character () : 用 于 判断 对 象 元 素 是 否 为 字符 串 。 


实例 ch4_39 : 判断 对 象 元 素 是 否 为 整数 的 应 用 。 


> Xl <- c(1:5) # 整 数 向 量 
> x2 <- c(1.5, 2.5) ”# 实 数 向 量 
> X3 <- c("Hello") # 字 符 串 向 量 
> is.integer(x1) 

[1] TRUE 

» is.integer(x2) 

[1] FALSE 

» is.integer(x3) 

[1] FALSE 

- 


对 以 下 实例 而 言 ，x1、x2、x3 对 象 内 容 与 上 述 相同 。 
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实例 ch4 40 : 判断 对 象 元 素 是 否 为 数字 的 应 用 。 


> is.numeric(x1) 
[1] TRUE 

» is.numeric(x2) 
[1] TRUE 

» is.numeric(x3) 
[1] FALSE 

> 


实例 ch4 41 : 判断 对 象 元 素 是 否 为 双 倍 精度 实数 的 应 用 。 


> is.double(x1) 
[1] FALSE 

» is.double(x2) 
[1] TRUE 

» is.double(x3) 
[1] FALSE 

> 


实例 ch4_42 : 判断 对 象 元 素 是 否 为 字符 串 的 应 用 。 


> is.character(x1) 
[1] FALSE 

» is.character(x2) 
[1] FALSE 

» is.character(x3) 
[1] TRUE 

> 


4-5-2 ”探索 对 象 的 结构 


str () 函数 可 用 于 探索 对 象 的 结构 。 对 于 向 量 对 象 而 言 ， 可 由 此 了 解 对 象 的 数据 类 型 、 长 度 
和 元 素 内 容 。 
实例 ch4_43 : 探索 对 象 的 结构 。 


> baskets.NBA2016.Lin ## 先 了 解 向 量 对 象 内 容 
1786112912 

> str(baskets.NBA2016.Lin) $€Xu57 EISE 
num [1:69] 7 8 6 11 9 12 

> 


从 上 述 执行 结果 可 知 baskets.NBA2016.Lin 对 象 的 结构 是 数据 类 型 为 num. ( 数值 )， 有 1 个 维 
E, 长度 是 6， 元 素 内 容 分 别 是 7、8、6、11、9、12。 如 果 元 素 太 多 ， 则 只 列 出 部 分 元 素 内 容 。 
下 列 是 查询 字符 串 对 象 x1 和 x2 的 结构 的 实例 。 
实例 ch4_44 : 探索 另外 两 个 对 象 的 结构 。 


Se a e MT SEuNÉxl 
> str(x1) 
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chr [1:5] "H" "e" "l1" "l1" "o" 
» X2 «- c("Hello", "R", "World") ## 建 立 对 象 x2 
> str(x2) 


chr [1:3] "Hello" "R" "World" 
> 


4-5-3 ”探索 对 象 的 数据 类 型 


对 于 向 量 对 象 而 言 ， 可 以 使 用 class O 函数 ， 了 解 此 对 象 元 素 的 数据 类 型 。 


实例 ch4_45 : class ) 函数 的 应 用 ， 了 解 对 象 元 素 的 数据 类 型 。 


» Xl «- c(1:5) 

» X2 «- c(1.5, 2.5) 
» X3 «- c("Hello!") 
» class(x1) 

[1] "integer" 

» class(x2) 

[1] "numeric" 

» class(x3) 

[1] "character" 

> 


需 特别 留意 的 是 ， 如 果 向 量 对 象 内 的 元 素 同时 包含 整数 、 实 数 、 字 符 时 ， 若 使 用 class O 判 


别 它 的 数据 类 型 ， 将 返回 “character”( 字符 )。 


> x4 <- c(x1, x2, x3) 
» class(x4) 

[1] "character" 

> 


UE 向 量 对 象 元 素 的 存 取 


4-6-1 使 用 索引 取得 向 量 对 象 的 元 素 


了 解 向 量 对 象 的 概念 后 ， 本 节 将 介绍 如 何 取得 向 量 内 的 元 素 ， 由 先前 实例 可 以 看 到 每 一 个 数 


据 输 出 时 输出 数据 左边 均 有 “[ 1 ]”， 中 括号 内 的 “1” 代 表 索 引 值 ， 表 示 是 向 量 对 象 的 第 1 个 元 
素 。R 语言 与 C 语言 不 同 ， 它 的 索引 (Index) 值 是 从 1 开始 ( 语言 从 0 开始 ) 的 。 
实例 ch4_46 : 认识 向 量 对 象 的 索引 。 


> numbers List «- 25:1 

» numbers List 

[1] 25 24 23 22 21 20 19 18 17 16 15 14 13 121110 9 8 7 6 5 4 
[224 3.2.1 


- 
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在 上 述 实例 中 ，numbers_List 向 量 对 象 的 第 1 个 元 素 是 25， 对 应 索引 [ 1]， 第 2 个 元 素 是 
24， 对 应 索引 [2]， 第 23 个 元 素 是 3， 对 应 索引 [23 ]。 
实例 ch4_47 : 延续 前 一 实例 ， 分 别 从 向 量 对 象 numbers. List 取得 第 3 个 数据 、 第 19 个 数据 和 第 
24 个 数据 的 实例 。 

> numbers_List[3] 

[1] 23 

» numbers List[19] 

m7 

» numbers List[24] 

[12 

上 述 只 是 很 普通 的 指令 ，R 语言 的 酷 炫 之 处 在 于 索引 也 可 以 是 一 个 向 量 对 象 ， 这 个 向 量 对 象 
可 用 ce O 函数 建立 起 来 。 所 以 可 以 用 下 列 简单 的 指令 取代 上 述 指令 ， 取 得 索引 值 为 3、19 和 24 
的 值 。 
实例 ch4 48 : 延续 前 一 实例 ， 索 引 也 可 以 是 向 量 的 应 用 实例 。 

> numbers List[c(3, 19, 24)] 


[23 7 2 
> 


此 外 ,我 们 也 可 以 用 下 列 已 建 好 的 向 量 对 象 当 作 索 引 取 代 上 述 实例 。 
实例 ch4 49 : 延续 前 一 实例 ， 索 引 也 可 以 是 向 量 对 象 的 另 一 个 应 用 实例 。 


> index List «- c(3, 19, 24) 
» numbers List[index List] 
[123 7 2 

> 


其 实 上 述 利用 索引 取得 原 向 量 部 分 元 素 ( 也 可 称 子 集 ) 的 过 程 为 取 子 集 ( Subsetting )。 


4-6-2 使 用 负 索 引 挖掘 向 量 对 象 内 的 部 分 元 素 


我 们 可 以 利用 索引 取得 向 量 对 象 的 元 素 ， 也 可 以 利用 索引 取得 向 量 对 象 内 不 含 特定 索引 所 对 
应 元 素 的 部 分 元 素 ， 方 法 是 使 用 负 索 引 。 


实例 ch4_50 : 取得 向 量 对 象 内 不 含 第 2 个 元 素 以 外 的 所 有 其 他 元 素 。 


> numbers_List # 原 先 向 量 内 容 

[1] 25 24 23 22 21 20 19 18 17 16 15 1413121110 9 8 7 6 
[2] 54 3 2 1 

» newnumbers List «- numbers List[-2] 

> newnumbers List  — # 新 向 量 内 容 

[1] 25 23 22 2120 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 
[21] 4 3 2 1 

> 


由 上 述 实 例 可 以 看 到 newnumber_List 向 量 对 象 不 含 元 素 “24”。 此 外， 负 索 引 也 可 以 是 一 个 向 
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量 对 象 ， 因 此 也 可 以 利用 此 特性 取得 负 索 引 向 量 对象 所 指 以 外 的 元 素 。 
实例 ch4_51 : 负 索 引 也 可 以 是 一 个 向 量 对 象 的 应 用 ， 下 列 是 取得 除 第 1 个 到 第 15 个 以 外 元 素 的 实例 。 


> numbers List  # 原 先 向 量 内 容 
[1] 25 24 23 22 21 20 19 18 17 16 15 14 13 121110 9 8 7 6 5 
[21] 4 3 2 1 
» newnumbers List «- numbers List[-(1:15)] 
» newnumbers List # 新 向 量 内 容 
[1110987654321 
> 


需 留意 的 是 索引 内 是 使 用 “- (1:15 ”， 而 不 是 “-1:15”。 可 参考 下 列 实例 。 
实例 ch4_52 : 错误 使 用 索引 的 实例 。 


> numbers List[-1:15] 
Error in numbers List[-1:15] : 只 有 负数 下 标 中 才能 有 e 
> 


4-6-3 ”修改 向 量 对 象 元 素 值 


使 用 向 量 对 象 做 数据 记录 时 ， 难 免 会 有 错 ， 碰 上 这 类 情况 ， 可 以 使 用 本 节 的 方法 修改 向 量 对 
象 元 素 值 。 下 列 是 将 Jordon 第 2 场 进 球 数 修改 为 8 的 实例 。 
实例 ch4_53 : 修改 向 量 对 象 元 素 值 的 应 用 实例 。 


> baskets.NBA2016. Jordon # 列 出 各 场次 的 进 球 数 
(1210 5 915 711 

> baskets.NBA2016.Jordon[2] <- 8 # 修正 第 2 场 进 球 数 为 8 
> baskets.NBA2016. Jordon # 验证 结果 

[1] 10 8 915 711 

> 


从 上 述 结果 ， 可 以 看 到 第 2 场 进 球 数 已 经 修正 为 8 球 了 。 此 外 ， 上 述 修改 向 量 对 象 的 索引 参 
数 也 可 以 是 一 个 向 量 对 象 ， 例 如 ， 假 设 第 1 场 和 第 6 场 ，Jordon 的 进 球 数 皆 是 12， 此 时 可 使 用 下 
列 方式 修正 。 
实例 ch4_54 : 一 次 修改 多 个 向 量 对 象 元 素 的 应 用 实例 。 

> baskets.NBA2016.Jordon # 列 出 各 场次 的 进 球 数 

[1] 10 8 915 711 

> baskets.NBA2016.Jordon[c(1, 6)] <- 12 # 修 正 新 的 进 球 数 

> baskets.NBA2016.Jordon 状 验 证 结果 


[1] 12 8 915 712 
> 


当 修改 向 量 对 象 元 素数 据 时 ， 原 始 数据 就 没 了 ， 所 以 建议 各 位 读者 ， 在 修改 前 可 以 先 建立 一 
份 备 份 ， 下 列 是 实例 。 
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实例 ch4_55 : 修改 向 量 对 象 前 ， 先 做 备份 的 应 用 实例 。 


> baskets.NBA2016.Jordon # 列 出 各 场次 的 进 球 数 
[1] 12 8 915 712 
> copy.baskets.NBA2016.Jordon <- baskets.NBA2016.Jordon  ”# 建 立 备份 


> baskets .NBA2016. Jordon # 列 出 Jordon 进 球 数 
[1] 12 8 915 712 
> copy.baskets .NBA2016. Jordon # 列 出 Jordon 的 备份 结果 


[1] 12 8 915 712 
> 


实例 ch4_56 : 下 列 是 将 Jordon 第 6 场 进 球 数 修改 为 14 的 实例 。 


> baskets.NBA2016.Jordon 兴 列 出 各 场次 的 进 球 数 
[1] 12 8 915 712 
> baskets.NBA2016.Jordon[6] <- 14 # 修 正 第 6 场 进 球 数 


> baskets.NBA2016. Jordon # 检 查 结果 
[1]12 8 915 714 
> copy.baskets .NBA2016. Jordon 3 518 c SORS REC ESÉ 


[1] i2 8 9 15 712 


由 上 述 实例 可 以 看 到 Jordon 第 6 场 进 球 数 已 经 被 修正 为 14。 如 果 现 在 想 将 Jordon 的 各 场次 进 
球 数 数据 复原 为 原先 备份 的 向 量 对 象 的 值 ， 可 参考 下 列 实例 。 
实例 ch4_57 : 复原 原先 备份 的 向 量 对 象 的 应 用 实例 。 


> baskets.NBA2016.Jordon # 列 出 各 场次 的 进 球 数 

[1]12 8 915 714 

> Copy.baskets .NBA2016. Jordon # 列 出 原先 备份 的 向 量 元 素 值 

[1] 12 8 915 712 

> baskets.NBA2016.Jordon <- copy.baskets.NBA2016. Jordon # 回 复原 先 的 备份 值 
> baskets.NBA2016. Jordon # 验 证 结果 


[1] 12 8 915 712 
> 


4-6-4 认识 系统 内 建 的 数据 集 letters AI LETTERS 


本 小 节 将 以 R 语言 系统 内 建 的 数据 集 letters 和 LETTERS 为 例 ， 讲 解 如 何 取得 向 量 的 部 分 元 
素 或 称 取 子 集 ( Subsetting )。 


实例 ch4 58 : 认识 系统 内 建 的 数据 集 letters 和 LETTERS. 


> letters 

[1] "a" "b" "c" "d" "e" "f" "g" "h" "i" "j" "k" "l" "m" "n" "o" "p" "q 
[18] "r" "s" "t" "u" "v" "w" "x" "y" "z" 
> LETTERS 


[1] ^A" "g* *(* "p* HE ES pa spé epe eje em eps ein png tps oor 
[18] "R" "S* "T" "y" "v* "Ww" "X" "y" "z" 
> 
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实例 ch4_59 : 取得 letters 对 象 索引 值 10 和 18 所 对 应 的 元 素 。 


> letters[c(10, 18)] 
[1 "j" "r" 
> 


实例 ch4_60 : 取得 LETTERS 对 象 索引 值 21 至 26 所 对 应 的 元 素 。 


> LETTERS[21:26] 
[1] "u" "v" "w" "x" "Y" "z" 
> 


对 前 面 的 实例 而 言 ， 由 于 我 们 知道 有 26 个 字母 ， 所 以 可 用 “21:26” 取 得 后 面 6 个 元 素 。 但 


是 有 许多 数据 集 ， 我 们 不 知道 它们 的 元 素 个 数 ， 应 该 怎么 办 ? R 语言 提供 tail () 函数 ， 可 解决 这 
方面 的 困扰 ， 可 参考 下 列 实例 。 
实例 ch4_61 : 使 用 tail O 函数 取得 LETTERS 对 象 最 后 8 个 元 素 。 并 且 测 试 ， 如 果 省 略 第 2 个 参 


数 ， 


会 列 出 多 少 个 元 素 。 


> tail(LETTERS, 8) 

[1] "S" "T" "U* "V" "Ww" "x" "Y" "z" 
» tail(LETTERS) 

[1] "U" "v" "w* "x" "Y" "z" 


> 


有 上 述 实例 可 知 ，tail O 函数 的 第 一 个 参数 是 数据 集 的 对 象 名 称 ， 第 二 个 参数 是 预计 取得 多 


少 元 素 ， 如 果 省 略 第 二 个 参数 ， 则 系统 自动 返回 6 个 元 素 。head O 函数 的 使 用 方式 与 tail O 函数 
相同 ， 但 是 返回 数据 集 的 最 前 面 的 元 素 。 

实例 ch4_62 : 使 用 head () 函数 取得 LETTERS 对 象 的 前 8 个 元 素 。 并 且 测 试 ， 如 果 省 略 第 2 个 
参数 ， 会 列 出 多 少 个 元 素 。 


> head(LETTERS, 8) 

[1] "A" "B" "C" "D" "E" "F" "G" "H" 
> head(LETTERS) 

[1] "A" "B" "C" "D" "E" "F" 


> 


逻辑 向 量 (Logical Vector ) 


4-7-1 基本 应 用 


在 先前 介绍 的 函数 运算 中 ， 笔 者 偶尔 穿插 使 用 了 TRUE 和 FALSE， 这 个 值 在 R 语言 中 被 称 


为 逻辑 值 ( Logical Vaule )， 这 一 节 将 对 此 作 一 个 完整 的 说 明 。 有 些 函 数 在 使 用 时 会 返回 TRUE 或 
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FALSE， 例 如 ，3-4 节 所 介绍 的 is.finite O, isinfinite ()。 基 本 原则 是 ， 如 果 函 数 执行 结果 是 真 ， 
则 返回 TRUE ， 如 果 是 假 ， 则 返回 FALSE。 这 两 个 值 对 于 程序 流程 的 控制 很 重要 ， 未 来 章节 会 
作 详 细 的 说 明 。 

本 节 主 要 介绍 含 罗 辑 值 的 向 量 对 象 ， 当 一 个 函数 内 的 参数 含有 逻辑 向 量 对 象 时 ， 整 个 R 语言 
的 设计 将 显得 可 更 灵活 。R 语言 可 以 用 比较 两 个 值 的 方式 返回 逻辑 值 ， 如 下 表 所 示 。 























运算 式 说 明 
x==y 如 果 x 等 于 y， 则 传 回 TRUE 
xl=y 如 果 x 不 等 于 y， 则 传 回 TRUE 
x»y 如 果 x 大 于 y， 则 传 回 TRUE 
x>=y 如 果 x 大 于 或 等 于 y， 则 传 回 TRUE 
x«y 如 果 x 小 于 y， 则 传 回 TRUE 
x<=y 如 果 x 小 于 或 等 于 y， 则 传 回 TRUE 
x&y 相当 于 AND 运算 ， 如 果 x 和 y 均 是 TRUE， 则 传 回 TRUE 
xly 相当 于 OR 运算 ， 如 果 x 或 y 是 TRUE， 则 传 回 TRUE 
Ix 相当 于 NOT 运算 ， 传 回 非 x 
xor (x, y) 相当 于 XOR 运算 ， 如 果 x 和 y 不 同 ， 则 传 回 TRUE 





对 于 上 述 比较 的 表达 式 而 言 ，x 和 y 也 可 以 是 一 个 向 量 对 象 。 
实例 ch4_63: 下 列 实例 是 如 果 Jordon 在 比赛 中 的 进 球 数 高 于 10 球 则 输出 TRUE， 否 则 输出 FALSE。 
> baskets.NBA2016. Jordon 3*1 8RJordontS AAA R 
[1] 12 8 915 712 
> baskets.NBA2016.Jordon > 10 


[1] TRUE FALSE FALSE TRUE FALSE TRUE 
> 


which () 函数 所 使 用 的 参数 是 一 个 比较 表达 式 ， 可 以 列 出 符合 条 件 的 索引 值 ， 相 当 于 可 以 找 
出 向 量 对 象 中 的 哪些 元 素 是 符合 条 件 。 
实例 ch4_64 : 下 列 实例 是 列 出 Jordon 进 球 数 超过 10 球 的 场次 。 


> baskets.NBA2016.Jordon 间 了 解 Jordon 的 各 场次 进 球 数 

[1 12 8 915 712 

> which(baskets.NBA2016.Jordon > 10) 

[12146 

> 

which.max () : 可 列 出 最 大 值 的 第 1 个 索引 值 。 

which.min O : 可 列 出 最 小 值 的 第 1 个 索引 值 。 

一 个 向 量 对 象 的 最 大 值 可 能 会 出 现 好 几 次 ， 分 别 对 应 不 同 的 索引 ，which.max O 函数 则 只 列 出 
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第 1 个 出 现 的 最 大 值 所 对 应 索引 值 。which-min O 意义 相同 ， 除 了 是 列 出 最 小 值 所 对 应 的 索引 值 。 
实例 ch4_65 : 下 列 实例 是 列 出 进 球 数 最 多 和 最 少 的 场次 。 


> baskets.NBA2016.Jordon 闪 了 解 Jordon 的 各 场次 进 球 数 
[12 8 915 712 

> which.maxCbaskets .NBA2016.Jordon) 

[1] 4 

» which.min(baskets .NBA2016. Jordon) 

[1] 5 


> 


实例 ch4 66 : 下 列 实 例 是 将 Jordon 和 Lin 作 比 较 ， 同 时 列 出 Jordon 进 球 数 较 多 的 场次 。 


> baskets.NBA2016.Jordon # 了 解 Jordon 的 各 场次 进 球 数 
[1] 12 8915 712 
» baskets.NBA2016.Lin 3T 8ILi nf AAA R 


[1] 7 8 611 912 

> best.baskets <- baskets.NBA2016.Jordon > baskets.NBA2016.Lin 
> which(best.baskets) 

[12134 

> 


在 上 述 实例 中 ， 可 以 发 现 Jordon 和 Lin 有 两 场 比赛 进 球 数 相 同 ， 如 果 修 改 ， 列 出 Jordon 与 


Lin 进 球 数 相同 或 Jordon 进 球 数 较 多 的 场次 ， 则 可 以 参考 下 列 实例 。 
实例 ch4_67 : 列 出 Jordon 与 Lin 进 球 数 相同 或 Jordon 进 球 数 较 多 的 场次 。 


> baskets.NBA2016.Jordon # 了 解 Jordon 的 各 场次 进 球 数 
97 
> baskets.NBA2016.Lin 间 了 解 Lin 的 各 场次 进 球 数 


[0] 7 8 611 912 

> best.baskets <- baskets.NBA2016.Jordon >= baskets.NBA2016.Lin 
> which(best.baskets) 

[1] 12346 

> 


当然 我 们 也 可 以 继续 延伸 使 用 best.baskets 向 量 对 象 。 
实例 ch4 68 : 下 列 实例 是 使 用 best.baskets 向 量 对 象 列 出 Jordon 在 得 分 较 多 或 与 Lin 相同 的 比赛 
中 的 实际 进 球 数 ， 同 时 也 列 出 Lin 的 进 球 数 。 


> baskets.NBA2016.Jordon[best.baskets] 
cJ 12 8 915122 

> baskets.NBA2016.Lin[best.baskets] 
[i] 7 8 61112 

> 


4-7-2 对 Inf、-Inf 和 缺失 值 NA 的 处 理 
使 用 逻辑 表达 式 进行 筛选 满足 一 定 条 件 的 值 时 ， 若 是 碰 上 NA， 会 如 何 呢 。 请 看 下 列 实例 。 
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实例 ch4_69 : NA 在 逻辑 表达 式 中 的 应 用 。 


> X <- c(9, 1, NA, 8, 6) 

> x[x > 5] 

[1] 9N 8 6 

> 

从 上 述 实例 看 ， 好 像 是 NA 大 于 5， 所 以 NA 也 返回 。 
非 也 。 


任何 比较 ， 对 于 NA 而 言 均 是 返回 NA， 可 参考 下 列 实 例 。 
实例 ch4_70 : NA 在 逻辑 表达 式 中 的 男 一 个 应 用 。 


>x<- c(9, 1, NA, 8, 6) 
>X>5 
[1] TRUE FALSE NA TRUE TRUE 


接 下 来 考虑 的 是 Inf 和 -Inf， 可 参考 下 列 的 实例 。 
实例 ch4_71 : Inf 在 逻辑 表达 式 中 的 应 用 。 


> x <- c(9, 1, Inf, 8, 6) 
> x[x > 5] 

[1] 9Inf 8 6 

> 


由 上 述 实例 可 知 ，Inf 的 确 大 于 5 所 以 上 述 也 返回 Inf。 可 以 用 下 列 实例 验证 这 个 结果 。 
实例 ch4 72 : Inf 在 逻辑 表达 式 中 的 另 一 个 应 用 。 


> x <- c(9, 1, Inf, 8, 6) 
>x>5 

[1] TRUE FALSE TRUE TRUE TRUE 
> 


很 明显 ， 当 比较 Inf 是 否 大 于 5 时 ， 是 返回 TRUE 的 。 接 下 来 ， 下列 是 用 -Inf 测试 的 实例 。 
实例 ch4_73 : -Inf 在 逻辑 表达 式 中 的 应 用 。 


» X «- c(9, 1, -Inf, 8, 6) 

> x[x > 5] 

[11986 

>X>5 

[1] TRUE FALSE FALSE TRUE TRUE 
> 


很 明显 ，-Inf 是 小 于 5 的 ， 所 以 返回 FALSE。 


4-7-3 多 组 多 辑 表达 式 的 应 用 
再 度 使 用 Jordon 的 进 球 数 ， 下 列 实例 可 得 到 Jordon 的 最 高 进 球 数 和 最 低 进 球 数 。 
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实例 ch4_74 : 得 到 Jordon 的 最 高 进 球 数 和 最 低 进 球 数 。 


> baskets.NBA2016.Jordon 亲 了 和解 Jordon 的 各 场次 进 球 数 
[1] 12 8 915 712 

> max.baskets.Jordon <- max(baskets.NBA2016.Jordon) 

> min.baskets.Jordon <- min(baskets.NBA2016.Jordon) 

> 


有 了 以 上 数据 ， 可 用 下 列 方法 求 得 某 区 间 的 数据 。 
实例 ch4_75 : 下 列 是 列 出 不 是 最 高 进 球 数 和 最 低 进 球 数 的 场次 和 进 球 数 。 


> max.baskets.Jordon <- max(baskets.NBA2016.Jordon) # 最 高 进 球 数 
> min.baskets.Jordon <- minCbaskets .NBA2016.Jordon) ## 最 低 进 球 数 
> lower.baskets <- baskets.NBA2016.Jordon < max.baskets.Jordon  # 非 最 高 进 球场 次 
> upper.baskets <- baskets.NBA2016.Jordon > min.baskets.Jordon # 非 最 低 进 球场 次 


> range.basket.Jordon <- Lower.baskets & upper.baskets # 我 们 要 的 区 间 场 次 

> which(range.basket.Jordon) # 列 出 我 们 要 的 区 间 场 次 
[1]1236 

> baskets.NBA2016. Jordon[range.basket .Jordon] SERI EA DX [8] 2 B ERR E 


[1] 12 8 9 12 


由 上 述 运算 可 知 ，lower.baskets 是 得 到 非 最 高 进 球 数 的 场次 [1, 2, 3, 5,6], upper.baskets 是 得 
到 非 最 低 进 球 数 的 场次 [1.2.3. 4. 6]， 接 着 我 们 用 逻辑 运算 符号 “&”， 可 以 得 到 非 最 高 进 球 数 与 最 
低 进 球 数 的 场次 是 [1, 2, 3, 6]. 


4-7-4 NOT 表达 式 

由 4-7-2 节 的 实例 可 知 ， 若 向 量 对 象 中 含 缺失 值 NA， 会 造成 我 们 使 用 时 的 错乱 ， 当 碰 上 这 
类 状况 时 ， 可 先 用 is.na O 函数 判断 向 量 对 象 中 是 否 含 有 NA， 然 后 再 用 “!is.na O”, BAR 
NA， 可 参考 下 列 实例 。 
实例 ch4_76 : NOT 表达 式 和 is.na () 函数 的 应 用 。 

> X <- c(9, 1, NA, 8, 6) 

> x[x > 5 & lis.naGO] 


[11986 
> 


若 与 本 章 4-7-2 节 的 实例 作 比 较 ， 则 可 以 看 到 NA 被 剔除 了 。 


4-7-5 ZH TRUE fll FALSE 的 运算 

R 语言 和 其 他 高 级 语言 一 样 ( 例如 C 语言 )， 可 以 将 TRUE SU 1, 将 FALSE 视 为 0 使 用 。 
下 列 实例 可 列 出 ，Jordon 共有 几 场 进 球 数 比 Lin 多 或 一 样 多 。 
实例 ch4_77 : 列 出 Jordon 共有 几 场 进 球 数 比 Lin 多 或 一 样 多 。 


> baskets.NBA2016. Jordon #T Jordon $E aA 
CD 这 8 915 7 i2 
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> baskets.NBA2016.Lin 大 了 解 Lin 的 各 场次 进 球 数 
(178611912 

» better.baskets «- baskets.NBA2016.Jordon »- baskets.NBA2016.Lin 
> sum(better.baskets) 

[15 


any O 函数 的 用 法 是 ， 只 要 参数 向 量 对 象 有 1 个 元 素 是 TRUE ， 则 返回 TRUE. 
实例 ch4_78 : any O 函数 的 应 用 。 


> baskets.NBA2016.Jordon 闪 了 解 Jordon 的 各 场次 进 球 数 
[1]12 8 915 712 
» baskets.NBA2016.Lin 3T 8RLi nf de SPA HERR KC 


(786192 

» better.baskets «- baskets.NBA2016.Jordon » baskets.NBA2016.Lin 

» any(better.baskets) 

[1] TRUE 

> 

在 上 述 实 例 中 ， 笔 者 将 better.baskets 调整 为 Jordon 的 进 球 数 须 大 于 Lin 的 进 球 数 ， 才 传 回 
TRUE。 由 于 仍 有 3 Jordon 的 进 球 数 是 大 于 Lin 的 ， 所 以 any O 函数 返回 TRUE. 

另外 一 个 常用 函数 是 all ()， 用 法 是 ， 所 有 参数 必须 均 是 TRUE， 才 返回 TRUE. 


实例 ch4_79 : all O 函数 的 应 用 。 


> baskets.NBA2016.Jordon 六 了 解 Jordon 的 各 场次 进 球 数 
[1 12 8 915 712 
> baskets.NBA2016.Lin # 了 解 Lin 的 各 场次 进 球 数 


[1] 7 8611912 

> better.baskets <- baskets.NBA2016.Jordon >= baskets.NBA2016.Lin 
> all(better.baskets) 

[1] FALSE 

> 


在 上 述 实 例 ， 笔 者 将 better.baskets 调整 为 Jordon 的 进 球 数 须 大 于 或 等 于 Lin 的 进 球 数 ， 才 返 
回 TRUE。 虽 然 有 5 场 Jordon 的 进 球 数 是 大 于 Lin, 但 仍 有 1 场 Jordon 的 进 球 数 小 于 Lin， 因 此 al O 
函数 返回 FALSE. 


UN 不 同 长 度 向 量 对 象 相 乘 的 应 用 


在 实例 ch4_7 和 ch4_8 中 笔者 介绍 了 ， 两 个 不 相同 长 度 向 量 对 象 相 加 的 实例 ， 本 节 将 讲解 两 
个 不 同 长 度 向 量 对 象 相 乘 的 应 用 实例 。 不 同 长 度 向 量 对 象 相 乘 的 基本 原则 是 ， 长 的 向 量 对 象 是 短 
的 向 量 对 象 的 倍数 。 本 节 将 直接 以 实例 作 说 明 。 
实例 ch4_80 : 假设 baskets.Balls.Jordon 向 量 对 象 ， 奇 数 元 素 是 单 场 2 分 球 的 进 球 数 ， 偶 数 元 素 是 


单 场 3 分 球 的 进 球 数 ， 请 由 此 数据 求 出 Jordon 的 总 得 分 及 平均 得 分 。 


> # 列 出 6 场 球赛 2 分 球 和 3 分 球 的 进 球 数 
> baskets.Balls.Jordon «- c(12, 3, 8, 2, 9, 4, 15, 5, 7, 2, 12, 3) 
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> scores.Jordon <- baskets.Balls.Jordon * c(2, 3) 产 计 算得 分 向 量 

> scores.Jordon 伏 列 出 得 分 向 量 

[1] 24 9 16 6 18 12 30 15 14 624 9 

» sum(scores.Jordon) 新 列 出 Jordon 6 场 比赛 总 得 分 
[1] 183 

> Scores.Average.Jordon <- sum(scores.Jordon) / 6 #RHJordon 6 场 比赛 平均 得 分 
> Scores.Average.Jordon ## 列 出 Jordon 6 场 比赛 平均 得 分 
[1] 30.5 


> 


由 上 述 实例 可 以 看 到 baskets.Balls.Jordon 的 奇数 元 素 会 乘 以 e (2. 3) 中 的 2， 偶 数 元 素 会 乘 以 
c (2,3) 中 的 3， 所 以 可 以 产生 得 分 scores.Jordon 向 量 对 象 ， 其 中 奇数 元 素 是 2 分 球 产生 的 分 数 ， 
偶数 元 素 是 3 分 球 产生 的 分 数 。 接 着 可 以 很 轻松 地 计算 6 场 比赛 的 总 得 分 和 平均 得 分 。 


DE 向量 对 象 的 元 素 名 称 





4-9-1 建立 简单 含 元 素 名 称 的 向 量 对 象 


虽然 我 们 可 以 使 用 索引 很 方便 地 取得 向 量 对 象 的 元 素 ，R 语言 有 一 个 强大 的 功能 是 为 向 量 对 
象 的 每 一 个 元 素 命 名 ,未 来 我 们 也 可 以 利用 对 象 的 元 素 名 称 引 用 元 素 内 容 。 下 列 是 建立 向 量 对 
象 ， 同 时 给 对 象 元 素 命名 的 方法 。 


object <- e (namel= datal, name2 = data2,… ) 


实例 ch4_81 : 为 Jordon 的 前 三 场 NBA 比赛 的 得 分 ， 建立 一 个 含 元 素 名 称 的 向 量 对 象 。 在 本 实例 
中 ,除了 建立 此 含 元 素 名 称 的 向 量 对 象 baskets.NBA.Jordon 外 ， 同 时 列 出 各 元 素 名 称 、 元 素 值 和 此 
对 象 的 结构 。 


> baskets.NBA.Jordon «- c(first = 28, second = 31, third = 35) 
> baskets.NBA.Jordon[1] 
first 
28 
> baskets.NBA.Jordon[2] 
second 
31 
» baskets.NBA.Jordon[3] 
third 
35 
» str(baskets.NBA.Jordon) 
Named num [1:3] 28 31 35 
- attr(*, "names")- chr [1:3] "first" "second" "third" 
- 


4-9-2 names O rZ 
使 用 names O 函数 可 以 查询 向 量 对 象 元 素 的 名 称 ， 也 可 更 改 向 量 对 象 元 素 的 名 称 。 
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实例 ch4_82 : 查询 前 一 实例 所 建 的 元 素 名 称 。 


> names(baskets.NBA.Jordon) 
[1] "first" "second" "third" 
> 


names () 函数 也 可 以 用 来 修改 元 素 名 称 。 
实例 ch4_83 : 修改 对 象 baskets.NBA.Jordon 的 元 素 名 称 ， 并 验证 结果 。 


> names(baskets.NBA.Jordon) = c("Gamel", "Game2", "Game3") # 修 改元 素 名 称 
» baskets.NBA.Jordon 
Gamel Game2 Game3 
28 31 35 
> 


如 果 想 要 删除 向 量 对 象 的 元 素 名 称 ， 只 要 将 其 设 为 NULL 即 可 ,例如 下 列 指令 可 以 将 上 述 实 
例 所 建 向 量 对 象 baskets.NBA.Jordon 的 元 素 名 称 删 除 。 

names ( baskets.NBA.Jordon ) «- NULL 

month.name 是 系统 内 建 的 一 个 数据 集 ， 此 向 量 对 象 的 内 容 如 下 所 示 。 


> month.name 

[1] "January" "February" "March" "April" "May" 
[6] "June" "July" "August" "September" "October" 
[11] "November" "December" 

> 


有 了 以 上 数据 集 ， 我 们 可 以 用 另 一 种 方式 为 向 量 对 象 建立 元 素 名 称 。 
实例 ch4_84 : 建立 一 个 月 份 表 ， 这 个 月 份 表 的 元 素 含 当月 月 份 的 英文 名 称 和 当月 天 数 。 


> month.data «- c (31, 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31) 
» names(month.data) «- month.name 


» month.data #PEER 
January February March April May June July 
31 28 31 30 31 30 31 
August September October November December 
31 30 31 30 31 


> 


实例 ch4_85 : 列 出 天 数 为 30 天 的 月 份 。 


> names(month.data[month.data == 30]) 
[1] "April" "June" "September" "November" 
- 


4-9-3 ”使 用 系统 内 建 的 数据 集 islands 
这 个 数据 集 含有 全 球 48 个 岛屿 的 名 称 及 面积 ， 其 内 容 如 下 所 示 。 
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> islands 
Africa Antarctica Asia Australia 
11506 5500 16988 2968 
Axel Heiberg Baffin Banks Borneo 
16 184 23 280 
Britain Celebes Celon Cuba 
84 73 25 43 
Devon Ellesmere Europe Greenland 
21 82 3745 840 
Hainan Hispaniola Hokkaido Honshu 
13 3e 3e 89 
Iceland Ireland Java Kyushu 
40 33 49 14 
Luzon Madagascar Melville Mindanao 
42 227 16 36 
Moluccas New Britain New Guinea New Zealand (N) 
29 15 306 44 
New Zealand (S) Newfoundland North America Novaya Zemlya 
58 43 9390 32 
Prince of Wales Sakhalin South America Southampton 
13 29 6795 16 
Spitsbergen Sumatra Taiwan Tasmania 
15 183 14 26 
Tierra del Fuego Timor Vancouver Victoria 
19 13 i2 82 


上 述 数据 集 是 依照 英文 首 字母 排列 数据 元 素 的 ， 下 列 是 一 系列 取 此 数据 集 子 集 的 实例 。 
实例 ch4_86 : 取 子 集 并 依 岛 屿 大 小 从 大 到 小 排列 。 


> newislands <- sort(islands, decreasing = TRUE) 
» newislands 


Asia Africa North America South America 

16988 11506 9390 6795 
Antarctica Europe Australia Greenland 
5500 3745 2968 840 

New Guinea Borneo Madagascar Baffin 

306 280 227 184 

Sumatra Honshu Britain Ellesmere 

183 89 84 82 

Victoria Celebes New Zealand (S) Java 

82 73 58 49 

New Zealand (N) Cuba Newfoundland Luzon 
44 43 43 42 

Iceland Mindanao Ireland Novaya Zemlya 

40 36 33 32 

Hispaniola Hokkaido Moluccas Sakhalin 

3e 30 29 29 

Tasmania Celon Banks Devon 

26 25 23 21 

Tierra del Fuego Axel Heiberg Melville Southampton 
19 16 16 16 


New Britain Spitsbergen Kyushu Taiwan 
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15 15 ax 14 
Hainan Prince of Wales Timor Vancouver 
13 13 13 12 


实例 ch4_87 : 取 面 积 最 小 的 10 个 岛屿 。 


> smalll0.islands <- tail(sort(islands, decreasing = TRUE), 10) 
> smalll0.islands 
Melville Southampton New Britain Spitsbergen 


16 16 15 15 
Kyushu Taiwan Hainan Prince of Wales 

14 14 13 13 
Timor Vancouver 

13 12 


> 


如 果 只 想 取得 岛屿 的 名 称 ， 可 参考 如 下 实例 。 
实例 ch4_88 : 取 面 积 最 大 的 10 个 岛屿 的 名 称 ， 且 只 列 出 名 称 。 


> big1ð.islands <- names(head(sort(islands, decreasing = TRUE), 10)) 
> big10.islands 
[1] "Asia" "Africa" "North America" "South America" 
[5] "Antarctica" "Europe" "Australia" "Greenland" 
[9] "New Guinea" "Borneo" 
> 


实例 ch4_89 : 以 不 用 head () 函数 的 方式 ， 完 成 前 一 个 实例 。 


> bigl0.istands <- names(sort(islands, decreasing = TRUE)[1:10]) 

> bigi9.islands 
[1] "Asia" "Africa" "North America" "South America" 
[5] "Antarctica" "Europe" "Australia" "Greenland" 
[9] "New Guinea" "Borneo" 

> 


( 


本 章 习题 
一 、 判 断 题 
) 1， 有 如 下 两 个 命令 。 
> x <- -2,5:-3.9 
> length(x) 


E 
) 8. 


上 述 命令 的 执行 结果 如 下 所 示 。 
[13 
有 如 下 两 个 命令 。 


>x<- 1:3 
> y <- Xx49:11 


上 述 命令 执行 后 ， 下 列 的 执行 结果 是 正确 的 。 


>y 
[1] 10 11 12 


.下 列 命令 在 执行 时 会 出 现 Warning messages 


> X <- 1:5 
>y<-x+1:10 


CHAPTER 04 向 量 对 象 运算 


在 R 语 言 的 Console 窗口 ， 若 某 行 命令 以 数学 符号 ( +、-、*、/ ) 作 结尾 ， 此 时 了 


语言 的 编译 程序 会 知道 下 一 行 是 接续 此 行 的 。 


.有 如 下 两 个 命令 。 


> x «- cC, 12, 6, 20, 9) 
» sort(x) 


上 述 命令 的 执行 结果 如 下 所 示 。 

[1] 20 12 9 7 6 

有 如 下 命令 。 

> sum(c(99, NA, 101, NA), na.rm = TRUE) 


上 述 命令 在 执行 时 会 有 错误 信息 产生 。 


字符 串 是 可 以 用 双 引 号 (“”) 也 可 以 用 单 引 号 (“， ) 包 夹 的 。 


有 如 下 4 个 命令 。 


> x1 <- c(1:2) 

> X2 <- c(1.5:2.5) 
> x3 <- cCx1, x2) 
> class(x3) 


上 述 命令 的 执行 结果 如 下 所 示 。 
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) 10. 


) 1L. 


) 13. 


) 14. 


) 15. 
) 16. 


[1] "numeric" 
有 如 下 两 个 命令 。 


> X <- 1:5 
> x[-(2:5)] 


上 述 命令 的 执行 结果 如 下 所 示 。 
[1] 1 

有 如 下 两 个 命令 。 

> head(letters) 

pl “er ee in ie i 

> letters[c(1, 5)] 

上 述 命令 的 执行 结果 如 下 所 示 。 
p "e" 

有 如 下 两 个 命令 。 


> X «- c(10, NA, 3, 8) 
> x[x > 6] 


上 述 命令 的 执行 结果 如 下 所 示 。 
[1] 10 NA 8 


. 有 如 下 3 个 命令 。 


» X «- c(10, Inf, 3, 8) 
>y<-x>6 


> any(y) 

上 述 命令 的 执行 结果 如 下 所 示 。 
[1] FALSE 

有 如 下 3 个 命令 。 


> x <- cQ, 7) 
> names(x) «- c("Gamel", "Game2") 
» names(x) «- NULL 


上 述 命令 相当 于 是 将 x 向 量 对 象 的 元 素 值 设 为 0。 
有 如 下 两 个 命令 。 


> x.small «- names(head(sort(islands))) 
> y.small <- names(sort(islands)[1:6]) 


上 述 xsmall 和 y.small 两 个 向 量 对 象 的 内 容 相同 。 
R 语言 逻辑 运算 的 结果 只 可 能 有 两 种 : TRUE 5j FALSE。 
有 如 下 命令 。 


> x[ is.na(x) ] <- 9 
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上 述 命令 执行 后 ， 会 将 x 对 象 内 的 所 有 缺失 值 以 0 替代 。 
) 17. 有 如 下 命令 。 


> X <- seq(-10, 10, 15) 


上 述 命令 执行 后 ，x 向 量 对 象 的 最 大 值 是 10. 


二 、 单 选 题 
假设 有 n 个 字母 ， 想 了 解 这 nm 个 字母 的 排列 组 合 方法 ,下列 哪 一 个 函数 可 以 最 方便 解 


( 


Vi; 


决 这 类 问题 ? 
A. max () B. mean () 
以 下 命令 会 得 到 以 下 哪个 数值 结果 ? 


>x<- 1:3 
>y<-x+1:6 
>y 


A.[1]135 

C.[11246579 

以 下 命令 会 得 到 以 下 哪个 数值 结果 ? 
> seq(1, 9, length.out = 5) 
A.[1]13579 

C.[1]123456 

以 下 命令 会 得 到 以 下 哪个 数值 结果 ? 
E222 

A. » rep(3, 2) 

C. > rep2, 2, 2) 

以 下 命令 会 得 到 以 下 哪个 数值 结果 ? 


> X <- mean(8:12) 
> X 


A. [1] 10 B. [1] 8 
以 下 命令 会 得 到 以 下 哪个 数值 结果 ? 


> X <- c(12, 7, 8, 4, 19) 
» rank(x) 


A.[1]12 7 8 419 
C-EDI42315 

以 下 命令 会 得 到 以 下 哪个 数值 结果 ? 
> max(c(9, 99, Inf, NA)) 


C. sd () D. prod () 


B.[1]245 
D.[1]245689 


B.[1]16 
D.[1]156789 


B. » rep(2, 3) 
D. > repG, 2, 2) 


C. [1] 12 D.[1]5 


B. [1] 4 7 812 19 
D. [1912 8 7 4 
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A.[H9 B.[1] 99 C. [1] Inf D. [1] NA 
( ”) 8. 以 下 命令 会 得 到 以 下 哪个 数值 结果 ? 

> max(c(9, 99, Inf, NA), na.rm = TRUE) 

A. [1]9 B.[1] 99 C. [1] Inf D. [1] NA 
( 9. 以 下 命令 会 得 到 以 下 哪个 数值 结果 ? 

> x <- cC"Hil"，"Good"，"Morning") 

> nchar(x) 

A.[1]34 7 B. [1] 3 C. [1] 14 D. [1]77 
( 210. 以 下 命令 会 得 到 以 下 哪个 数值 结果 ? 

> head(letters, 5) 

[1] "a" "p" *c* "ge "e" 

» letters[c(1, 5)] 

A. [1] "a" B.[1] "a" "e" €. [1j "b" D.[1] "b" "e" *4" 
C. D 11. 以 下 命令 会 得 到 以 下 哪个 数值 结果 ? 


> x «- c(8, 12, 19, 4, 5) 
» which.max(x) 


A. [1] 19 B. [1]3 c.[1]4 D.[1]5 
C 2) 12. 以 下 命令 会 得 到 以 下 哪个 数值 结果 ? 


> X <- c(6, 9, NA, 4, 2) 
> x[x > 5 & lis.na(x)] 


A. [1]69 B.[1]69 NA C.[1]169NA42 D.[1]42 
C 213. 有 以 下 命令 。 


> xl <- c(9, 6, 8, 3, 4) 
» X2 «- c(6, 10, 1, 2, 5) 
> y <- Xxl >= x2 


将 y 放 进 哪 一 个 函数 内 可 以 得 到 下 列 结果 。 


[1] FALSE 
A. any () B. rev () C. sort () D. all O 
C ) 14. 使 用 head () 或 tail O 函数 ， 若 省 略 第 2 个 参数 ， 系 统 将 自动 返回 多 少 个 元 素 。 
A.1 B.3 CS D. 6 
C 2) IS. 有 以 下 命令 。 
>X < 1:10 
> names(x) <- letters[x] 
sx 
abcd hig 
7 8 910 


e f 
12345 
以 下 哪 种 方法 不 能 传 回 x 向 量 的 前 5 个 元 素 , 即 : 
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abcde 

12345 

Acp "at Bhutan s e Bons] 

C. head (x. 5) D. x[letters[1:5]] 


C. ) 16. 以 下 命令 集会 得 到 以 下 哪个 数值 结果 ? 


> X <- seq(-2, 2, 0.5) 
> length(x) 


A.[1]5 B.[1]9 C.[1]2 D.[1]8 
(C. 2) 17. 以 下 命令 集会 得 到 以 下 哪个 数值 结果 ? 
»c3,2,1)—2 


A.[I] TRUE B. [1] FALSE 
C.[I] FALSE TRUE FALSE D. [1] NA 

三 、 多 选 题 

C 2L. 以 下 哪些 方式 可 以 用 来 计算 1.2, 3. 4 的 平均 值 ， 执 行 结果 如 下 所 示 ? ( 选择 两 项 ) 
[1]2.5 
A. mean ( 1,2, 3,4) B. mean (c (1,2,3,4)) 
C. sum (c (1,2, 3, 4)) /4 D. max (c (1,2,3.4)) 


E. ave (c (1,2, 3,4)) 

(22. 以 下 哪些 函数 可 以 用 来 产生 如 下 x 向 量 ? (选择 3 项 ) 
0 123453678 92 
A. seq ( 10) B. seq_len ( 10) 
C. numerice ( 10 ) D. 1:10 
E. seq ( 1,10,10 ) 


四 、 实 际 操作 题 ( 如 果 题 目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 
1. 建立 家 人 的 向 量 数据 。 
CV) 将 家 人 或 亲人 ( 至 少 10 人 ) 的 血型 建立 为 字符 向 量 对 象 ， 同 时 为 每 一 个 元 素 建立 名 称 ， 
并 打印 出 来 。 
(2) 将 家 人 名 字 ( 至少 10 人 ) 建立 为 字符 串 向 量 对 象 ， 可 用 英文 ， 同 时 为 每 一 个 元 素 建立 名 
称 ， 并 打印 出 来 。 
(3 ) 将 家 人 或 亲人 ( 至 少 10 人 ) 的 年 龄 建立 为 整数 向 量 对 象 ， 同 时 为 每 一 个 元 素 建 立 名 称 ， 
并 打印 出 来 。 
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gs Du ge du» 


(4) 将 上 述 所 建 的 向 量 对 象 ， 进 行 从 小 到 大 排序 ， 然 后 从 大 到 小 排序 。 

建立 5 位 同 队 NBA 球星 的 得 分 数据 向 量 对 象 。 

C1) 到 美国 NBA 或 运动 网 站 查询 自己 喜欢 的 球 队 以 及 球星 ， 为 他 们 的 10 场 比赛 建立 5 场 进 
球 数 的 向 量 对 象 ， 以 及 罚球 数 的 向 量 对 象 。 

(2) 假设 上 一 题 的 5 位 球星 ， 每 场 比赛 会 进 一 个 3 分 球 ( 如 果 该 场次 未 进 球 ， 则 此 为 0)， 请 
计算 这 5 位 球星 的 总 得 分 以 及 平均 得 分 。 

(3) 请 计算 该 队 5 人 的 进 球 数 和 得 分 总 数 。 

(A) 请 列 出 每 场 比赛 得 分 最 多 的 球员 。 

参考 实例 ch4_84， 列 出 当月 有 31 天 的 月 份 。 

使 用 系统 内 建 数据 集 islands， 列 出 排序 第 30 和 35 名 的 岛 名 称 和 面积 。 

使 用 系统 内 建 数据 集 islands， 列 出 前 15 大 和 最 后 15 大 的 岛 名 称 和 面积 。 

使 用 系统 内 建 数据 集 islands， 分 别 列 出 排 在 奇数 位 和 偶数 位 的 岛 名 称 和 面积 。 
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处 理 和 矩阵 与 更 高 维 数据 
O 


5-1 4f Matrix 

5-2 取得 矩阵 元 素 的 值 
5-3 修改 矩阵 的 元 素 值 
5-4 降低 矩阵 的 维度 

5-5 矩阵 的 行 名 和 列 名 
5-6 将 行 名 或 列 名 作为 索引 
5-7 ERZA 

5-8 三 维 或 高 维 数组 

5-9 再 谈 class () 函数 
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向 量 ( Vector ) 对 象 相当 于 是 Microsoft Excel 表格 的 一 列 ( row ) 或 一 行 (column )， 同 时 存放 
着 相同 类 型 的 数据 。 在 真实 的 世界 里 , 这 是 不 够 的 , 我 们 常 碰 上 需要 处 理 不 同类 型 的 数据 的 情况 。 

在 数据 中 ， 一 维 数据 称 向 量 (Vector) 对 象 、 二 维 数 据 称 和 矩阵 (Matrix) 对 象 ， 超 过 二 维 的 数 
据 称 三 维 或 多 维 数组 ( Array ) 对 象 ， 如 下 图 所 示 。 








向 量 一 维 ( Vector ) 矩阵 二 维 ( Matrix ) 数组 三 维 或 更 高 维 ( Array ) 


此 外 ， 也 可 将 Vector 称 一 维 Array， 将 矩阵 ( Matrix ) 称 二 维 Array， 其 余 则 依 维 度数 称 N 维 
Array。 


和 矩阵 Matrix 


若是 将 向 量 想 成 线 ， 则 可 将 矩阵 想 成 面 ， 如 上 图 所 示 。 对 R 程序 设计 师 而 言 ， 首 先 要 思考 的 
是 如 何 建立 矩阵 。 


5-1-1 建立 矩阵 
建立 矩阵 可 使 用 matrix () 函数 ， 格 式 如 下 所 示 。 


matrix ( data, nrow = ?, ncol = ?, byrow = logical, dimnames = NULL ) 

O data : 数据 。 

口 nrow : 预计 行 的 数量 。 

O neol : 预计 列 的 数量 。 

口 byrow : 逻辑 值 。 默 认 是 FALSE， 表 示 先 按 列 ( Column ) 填 数 据 ， 第 1 列 填 满 再 填 第 2 列 ， 其 
他 依 此 类 推 ， 因 此 ， 若 先 填 列 则 可 省 略 此 参数 。 如 果 是 TRUE 则 先 填 行 ( Row )， 第 1 行 填 满 
再 填 第 2 行 ， 其 他 依 此 类 推 。 

口 dimnames : 矩阵 的 属性 。 
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实例 ch5_1 : 建立 first.matrix， 数 据 为 112，4 行 的 矩阵 。 


> first.matrix <- matrix(1:12, nrow = 4) 
» first.matrix 
L1] [,2] D,3] 


[2] 2 6 1 
[1 3 7 u 
[4,] 4 8 12 


实例 ch5 2 : 建立 second.matrix， 数 据 为 1:12，4 行 的 矩阵 ，byrow 设 为 TRUE, 


> second.matrix «- matrix(1:12, nrow = 4, byrow = TRUE) 
» second.matrix 
L1] L2] [,3] 
[1,3 i 2 3 
[2,] 4 5 6 
[3,] 7 8 9 
[4] 10 11 i2 


> 


实例 ch5 3 : 建立 third.matrix， 数 据 为 1:12，4 行 的 矩阵 ，byrow 设 为 FALSE。 这 个 实例 的 执行 结 
果 与 ch5_1 相同 。 


> third.matrix «- matrix(1:12, nrow = 4, byrow = FALSE) 
» third.matrix 

L1] L2] [,3] 
1, 1 5 9 


[2] 2 6 i 
51 353 7T 1 
[4] ^4 8 i 


> 


5-1-2 认识 矩阵 的 属性 
使 用 str O 函数 也 可 以 查看 矩阵 对 象 的 结构 。 
实例 ch5_4 : 使 用 str () 函数 查看 first.matrix 和 second.matrix 的 结构 。 








> str(first.matrix) 

int [1:4, 1:3] 12345678910... 
> str(second.matrix) 

int [1:4, 1:3] 147102581136... 
> 


使 用 nrow () 函数 可 以 得 到 和 矩阵 的 行 数 。 
实例 ch5_5 : 使 用 nrow () 函数 查看 first.matrix 和 second.matrix 的 行 数 。 


> nrowCfirst.matrix) 


[1] 4 
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> nrow(second.matrix) 
[1] 4 
- 


使 用 ncol O 函数 可 以 得 到 矩阵 的 列 数 。 
实例 ch5 6 : 使 用 ncol () 函数 查看 first matrix 和 second.matrix 的 列 数 。 


> ncol(first.matrix) 
[1] 3 
> ncol(second.matrix) 
[1] 3 


使 用 dim O 函数 则 可 以 获得 矩阵 对 象 的 行 数 和 列 数 。 
实例 ch5_7 : 使 用 dim O 函数 查看 first.matrix 和 second.matrix 的 行 数 和 列 数 。 


> dim(first.matrix) 
[1] 4 3 
» dim(second.matrix) 
[1] 4 3 


> 


此 外 ，length O 函数 也 可 用 于 取得 矩阵 (Matrix) 或 三 维 或 多 维 数 组 ( Array ) 对 象 的 元 素 
个 数 。 


实例 ch5_8 : 取得 first.matrix 和 second.matrix 的 元 素 个 数 。 


> length(first.matrix) 
[1] 12 

» length(second.matrix) 
[1] 12 

> 


is.matrix () 函数 可 用 于 检查 对 象 是 否 是 矩阵 ( Matrix )。 
实例 ch5_9 : 检查 first.matrix 和 second.matrix 是 否 是 矩阵 ( Matrix )。 


> is.matrix(first.matrix) 
[1] TRUE 
» is.matrix(second.matrix) 
[1] TRUE 


- 
is.array O. 函数 可 用 于 检查 对 象 是 否 是 Array 
实例 ch5_10 : 检查 first.matrix 和 second.matrix 是 否 是 Arrays 


> is.array(first.matrix) 
[1] TRUE 

» is.array(second.matrix) 
[1] TRUE 

> 
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5-1-3 ”将 向 量 组 成 矩阵 
R 语言 提供 的 tbind O 函数 可 将 两 个 或 多 个 向 量 组 成 矩阵 ， 每 个 向 量 各 自 占用 一 行 。 
实例 ch5_11 : 使 用 rbind O 函数 ， 简 单 地 将 两 个 向 量 组 成 矩阵 的 实例 。 


> v1 <- c(7, 11, 15) smi 
» V2 «- c(5, 10, 9) "982 
> al <- rbind(vl, v2) #88 
>al 

[,1] 52] [,3] 


v1 7 11 15 
v2 5 10 9 
> 


由 上 图 可 以 看 到 和 矩阵 左边 保留 了 原 向 量 对 象 的 名 称 , 后 面 章节 会 介绍 如 何 使 用 这 个 向 量 名 称 。 
实例 ch5_12 : 矩阵 也 可 以 和 向 量 组 合成 矩阵 。 


> V3 <- c(3, 6, 12) "oma 
> a2 <- rbind(ai, v3) "aas 
> a2 


L1) D,2] D,3] 
vi 7 d 15 
v2 5 10 9 
v3 3 6 i 
> 


在 上 一 章 笔者 讲解 了 有 关 baskets.NBA2016.Jordon 和 baskets.NBA2016.Lin 这 两 个 向 量 对 象 ， 
下 列 是 将 这 两 个 对 象 组 成 矩阵 的 实例 。 
实例 ch5_13 : 将 baskets.NBA2016. Jordon 和 baskets.NBA2016.Lin 组 成 矩阵 的 实例 。 


> baskets.NBA2016.Lin 
(l7 8611912 
> baskets.NBA2016.Jordon 
[1]12 8 915 7 i2 
> baskets.NBA2016.Team <- rbind(baskets.NBA2016.Lin, baskets.NBA2016.Jordon) 
» baskets.NBA2016.Team 

L1] [,2] L3] [,4] [,5] [,6] 
baskets.NBA2016.Lin 7 8 6 11 9 i 
baskets.NBA2016.Jordon 12 8 9 15 7 12 
> 


cbind () 函数 可 将 两 个 或 多 个 向 量 组 成 矩阵 ， 功 能 类 似 rbind ()。 不 过 ， 它 是 以 每 个 向 量 各 占 
一 列 的 方式 来 组 织 向 量 的 。 
实例 ch5_14 : 使 用 cbind O 函数 重新 设计 实例 ch5_11。 


> Vi <- c(7, 11, 15) # 向 量 1 
> v2 <- c(5, 10, 9) 19m 
» 03 «- cbind(vi, v2) #8 


> a3 
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vi v2 
[1,] 7 5 
[2,] 11 10 
[3,] 15 9 
> 


实例 ch5_15 : 使 用 cbind O 将 两 个 向 量 与 1 个 矩阵 组 成 矩阵 的 应 用 实例 。 


> cbind(1:3, 11:13, matrix(21:26, nrow = 3)) 
[1] [,2] [,3] [,4] 

[1,] 1 1 2 24 

[5] 2 i2 2 5 

pI 3 15 3 35 


> 


EN 取得 矩阵 元 素 的 什 
使 用 索引 执行 矩阵 元 素 的 存 取 与 上 一 章 所 述 存 取向 量 元 素 的 方法 类 似 。 
5-2-1 和 托 阵 元 素 的 取得 


与 向 量 相同 ， 索 引 值 必须 在 中 括号 内 ， 中 括号 中 的 第 一 个 参数 是 行 ( Row )， 第 二 个 参数 是 列 


( Column )。 


实例 ch5_16 : 使 用 实例 ch5_12 所 建 矩 阵 对 象 2， 取 得 a2[2, 1] 和 a2[1, 3] 对 应 的 值 。 


»a2 

L1] [,2] [,3] 
vi Tu 35 
v2 5 10 9 
v3 3 6 i 
> a2[2, 1] 
v2 
5 
> az[1, 3] 
vi 
15 
> 


在 取得 矩阵 元 素 内 容 时 ， 如 果 原 矩阵 有 行 名 或 列 名 ， 那 么 行 名 与 列 名 也 将 同时 列 出 。 假 设 有 
一 个 my.matrix 矩阵 ( Matrix )， 其 内 容 如 下 。 


> my.matrix <- matrix(1:20, nrow = 4) 
» my.matrix 


[1,] 
[2,] 
[3,] 
[4,] 


> 


9 B 
10 14 
11 15 
12 16 


L1] L2] [,3] [,4] [,5] 
17 


18 
19 
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下 列 是 一 系列 取得 my.matrix 矩阵 内 容 值 的 实例 (ch5_17 至 ch5_22 )。 
实例 ch5_17 : 取得 my.matrix[3, 5] 的 实例 。 

> my.matrix[3, 5] 

[1] 19 


实例 ch5. 18 : 取得 my.matrix[2, ] 的 实例 ， 相 当 于 取得 第 2 行 的 所 有 元 素 。 
> my.matrix[2, ] 


[1] 2 6 10 14 18 
> 


Q 当 某 一 索引 被 省 略 时 ， 则 代表 该 维度 的 行 或 列 均 必 须 被 计算 在 内 。 


实例 ch5_19 : 取得 my.matrix[ ,3]， 相 当 于 取得 第 3 列 的 所 有 元 素 。 
> my.matrix[ , 3] 


[1] 9 10 11 12 
> 


实例 ch5_20 : 取得 my.matrix[2, c (3.4) ]， 相 当 于 取得 第 2 行 第 3 列 和 第 4 列 的 元 素 。 
> my.matrix[2, c(3,4)] 


[1] 10 14 
> 


也 可 将 上 述 指令 改写 成 下 列 的 指令 格式 。 
实例 ch5_21 : 取得 my.matrix[3:4, 4:5]， 相 当 于 取得 第 3 行 到 第 4 行 和 第 4 列 到 第 5 列 的 元 素 。 所 
取得 的 也 是 一 个 和 矩阵。 


> my.matrix[3:4, 4:5] 


L1] L2] 
[1,] 15 19 
[2,] 16 20 


> 
实例 ch5_22 : 取得 第 3 行 和 第 4 行 的 所 有 元 素 。 
> my.matrix[3:4, ] 
[1] L2] [,3] [,4] [,5] 
[(] 3 2u 15 3 


[5] ^4 8 i2 16 20 
- 


5-2-2 使 用 负 索 引 取 得 矩阵 元 素 
对 于 矩阵， 使 用 负 索 引 ， 相 当 于 拿 掉 负 索引 所 指 的 行 (Row) 或 列 ( Column )。 
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实例 ch5_23 : 取得 第 3 行 , 第 4 列 以 外 的 所 有 元 素 。 


> my.matrix 

[,1] [,2] [,3] [,4] [,5] 
be 1 S 9 15 X 
[5] 2 6 10 14 18 
BJ) 3 7 1 315 1 
[4,] ^4 8 i2 16 20 
» my.matrix[-3, -4] 

[1] L2] 31 L4] 
(1 1 s 9 7 
[2] 2 6 1 18 
B] 4 8 i2 20 
> 


实例 ch5_24 : 取得 第 3 行 和 第 4 行 , 第 4 列 以 外 的 所 有 元 素 。 


> my.matrix 

[1] [,2] [,3] [,4] [,5] 
[1,] 1 5 9 13 7 
[2.1 2 6 10 14 18 
[5,3 3 ? 11 15 19 
[4,] 4 8 12 16 20 
» my.matrix[-c(3:4), -4] 

L1] L2] 531 [,4] 
1] 1 5 9 17 
[2,] 2 6 10 18 
> 


EXE] 修改 矩阵 的 元 素 值 


修改 矩阵 ( Matrix ) 的 元 素 值 与 修改 向 量 ( Vector ) 的 元 素 值 类 似 。 
实例 ch5_25 : 将 my.matrix[3, 2] 的 值 修改 为 100。 


> my.matrix Li 4l 
[,1] [,2] [,3] [,4] E,51 

[1,] 1 5 9 13 17 

[2,] 2 6 10 14 18 

[3,] 3 100 11 15 19 

[4,] 4 8 12 16 20 

» my.matrix[3, 2] «- 100 i eoe 

» my.matrix 产 修 改 后 
L1] [,2] [,3] [,4] [,5] 

[1,] 1 5 9 133 y 

[2,1 2 6 10 14 18 

[3,] 3 1 11 15 19 

[4.1 4 8 12 16 20 


> 


我 们 也 可 以 直接 更 改 整 行 (Row) 或 整 列 (Column ) 的 元 素 值 。 
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实例 ch5_26 : 修改 my.matrix 矩阵 ， 将 整个 第 3 行 (Row) 的 元 素 值 改 成 101 的 应 用 实例 。 


> my.matrix 

[,1] L2] 31 [,4] [,5] 
I 1 5 9 13 g 
[5] 2 6 10 14 18 
[3,] 3 10 11 15 19 
[4] ^4 8 i2 16 20 
> my.matrix[3, 7] <- 101 
» my.matrix 

[,1] L2] 31 [,4] [,5] 
mI 1 5 95 B mu 
[5] 2 6 10 14 18 
[3,] 101 101 101 101 101 
[4] ^4 8 i2 16 20 


> 





3 oic ht 


Li 7.6] 


实例 ch5. 27 : 修改 my.matrix 矩阵 ， 将 整个 第 4 列 ( Column ) 的 元 素 值 修改 的 应 用 实例 。 


> my.matrix 
[,1] [,2] [,3] [,4] E,51 


[1,] 1 5 9 13 77 
[2,1] 2 6 10 14 18 
[3,] 101 101 101 101 101 
[4,] 4 8 12 16 20 
> my.matrix[ , 4] <- c(3, 9) 
» my.matrix 


L,1] [,2] [,3] [,4] [,5] 


[1,] 1 5 9 3 17 
[2,] 2 6 10 9 18 
[3,] 101 101 101 3 101 
[4,] 4 8 12 9 20 


> 


L1 47i 


"neas 





实例 ch5_28 : 修改 my.matrix 矩阵 ， 将 整个 第 4 列 ( Column ) 的 元 素 值 修改 的 应 用 实例 。 


> my.matrix 
L1] L2] [,3] [,4] [,5] 


[(] 1 5 9 3 1i 
[2,] 2 6 10 9 18 
[3,] 101 101 101 3 101 
[4] 4 8 i2 9 20 
» my.matrix[ , 4] «- c(25:28) 
» my.matrix 

L.1] [,2] [,3] [,4] [,5] 
(n 1 5 9 25 1T 
[2,] 2 6 10 26 18 
[3,] 101 101 101 27 101 
[4] 4 8 i2 28 20 


> 


杰 修 改 前 


新 修 改 后 
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实例 ch5_29 : 修改 矩阵 子 集 的 应 用 实例 ， 这 个 实例 将 修改 my.matrix[3:4. 2:3]。 


> my.matrix # d 
L,1] L2] [,3] [,4] [,5] 

ag 1 5 9 25 7 

[2,1 2 6 10 2 18 

[3,] 101 101 101 27 101 

[4,] 4 8 12 28 20 

> my.matrix[3:4 , 2:3] <- c(10, 31, 22, 99) 

» my.matrix 3 aus 
[1] L2] [,3] [,4] [,5] 

[1,] 1 5 $$ 3 X 

[2] 2 6 10 2 18 

[3,] 101 10 22 27 101 

[4,] 4 31 9 28 20 


> 


实例 ch5_30 : 用 一 个 小 和 矩阵， 修改 原 矩 阵 的 子 集 。 


> my.matrix 兴修 改 前 
[1] [,2] [,3] [,4] [,5] 
[1,] 1 5 9 25 1i7 
[2,3 2 6 10 26 18 
[3,] 101 10 22 27 101 
[4,] 4 31 99 28 29 
> my.matrix[3:4 , 2:3] «- matrix(1:4, nrow = 2) 
» my.matrix # 修 改 后 
[,1] [,2] [,3] [,4] [,5] 
[1,] 1 5 9 235 xy 


[2,1 2 6 10 26 18 
[3,] 101 1 3 27 101 
[4,] 4 2 4 28 20 


> 


实例 ch5_31 : 用 一 个 小 和 矩阵， 修改 原 矩 阵 的 子 集 ， 采 用 行 (Row) 优先 排列 的 方式 。 


> my.matrix LL 
L1] L2] L3] [,4] [,5] 
[.] 1 S 9 25 p 


[2,] 2 6 10 26 18 

[3,] 101 1 3 27 101 

[4,] 4 2 4 28 20 

> my.matrix[3:4 , 2:3] «- matrix(5:8, nrow = 2, byrow = TRUE) 
» my.matrix 人 修改 后 


L1] L2] C3] [,4] [,5] 
人 


[2] 2 6 10 26 18 
[3,] i0 5 6 27 10 
[4] 4 7 8 28 2 


> 


EN 降低 矩阵 的 维度 


使 用 负 索 引 取 得 矩阵 的 部 分 元 素 时 ， 如 果 所 取得 的 部 分 元 素 仅 有 一 行 或 一 列 ， 那 么 R 语言 将 
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自动 将 对 象 降 低 维 度 ， 从 和 矩阵 对 象 变 向 量 对 象 。 
实例 ch5_32 : 将 3 行 4 列 矩 阵 降 为 向 量 的 应 用 实例 ， 这 个 实例 会 舍弃 第 2 行 和 第 3 行 。 


> simple.matrix «- matrix(1:12, nrow = 3) 
» simple.matrix 
L1] L2] [,3] [,4] 
Ej X1. 4 T7 19 
BIJ 2 S 8 n 
E33 8.06. 9 42 
» simple.matrix[-c(2, 3), ] 
(ia^47140 
> 


其 实 ， 如 果 舍弃 一 个 矩阵 对 象 的 某 个 元 素 ， 那 么 整个 矩阵 对 象 也 将 降 为 向 量 对 象 。 
实例 ch5_33 : 将 3 行 4 列 矩 阵 降 为 向 量 的 应 用 实例 ， 这 个 实例 会 舍弃 “2”” 3” 元 素 ， 最 后 整个 
和 矩阵 将 变 为 向 量 。 


> simple.matrix «- matrix(1:12, nrow = 3) 
» simple.matrix 
L1] L2] 31 [,4] 


[1,] 1 4 7 10 
[2,] 2 5 8 n 
[3,] 3 6 9 了 2 


> simple.matrix[-c(2, 3)] 
[1456578931112 
> 


假设 有 数 行 (Row) 或 数列 (Column ) 的 矩阵 ， 其 部 分 元 素 被 舍弃 ， 只 剩 一 行 或 一 列 时 ， 如 
果 仍 希望 此 对 象 以 矩阵 方式 呈现 ， 那 么 可 增加 “drop = FALSE” 参 数 。 
实例 ch5_34 : 类 似 实例 ch5_32 将 3 行 4 列 的 矩阵 降 为 1 行 4 列 ， 但 对 象 仍 保持 矩阵 格式 。 


> simple.matrix «- matrix(1:12, nrow = 3) 
» simple.matrix 
L,1] L2] [,3] [,4] 


[1] 1 4 7 10 
RI 2 S 8 n 
BI 3 6 9 rz 


» simple.matrix[-c(2, 3), , drop - FALSE] 
[1] L2] L3] L4 

nI 1 4 7 10 

> 


EX 矩阵 的 行 名 和 列 名 


其 实 直 接 输入 矩阵 对 象 的 名 称 就 可 以 了 解 该 矩阵 对 象 的 行 名 (Row Name ) 和 列 名 (Column 


Name )。 


88 


R 语言 一 一 迈 向 大 数据 之 路 


实例 ch5 35 : 了 解 前 一 节 所 建 的 simple.matrix 矩阵 对 象 的 行 名 和 列 名 。 


> simple.matrix 

L,1] L2] [,3] [,4] 
[1,] 1 4 7 10 
gp 2 5 è ü 
[5,1 3 6 9 2 
> 


从 上 述 执行 结果 可 知 ，simple.matrix 是 没有 行 名 和 列 名 。 
实例 ch5_36 : 了 解 程序 实例 ch5_13 所 建 baskets.NBA2016.TEAM 对 象 的 行 名 和 列 名 。 
> baskets.NBA2016.Team 
L1] L2] [,3] [,4] [,5] [,6] 
baskets .NBA2016.Lin T 8 6 11 9 12 


baskets.NBA2016.Jordon 12 8 9 15 T 2 
> 


由 上 述 执行 结果 可 知 ，baskets.NBA2016.TEAM 对 象 有 两 个 行 名 ， 分 别 是 baskets.NBA2016.Lin 
和 baskets.NBA2016.Jordon。 不 过 ， 此 对 象 没有 列 名 。 


5-5-1 取得 和 修改 矩阵 对 象 的 行 名 和 列 名 


rownames () 函数 可 以 取得 和 修改 矩阵 对 象 的 行 名 。 
colnames () 函数 可 以 取得 和 修改 矩阵 对 象 的 列 名 。 
实例 ch5_37 : 使 用 rownames () 函数 取得 baskets.NBA2016.Team 和 simple.matrix 的 行 名 。 


> rownames(simple.matrix) HG 

NULL 

> rownames(baskets .NBA2016.Team) 状 取 得 行 名 

[1] "baskets.NBA2016.Lin" "baskets .NBA2016. Jordon" 


> 


从 上 述 实 例 可 知 ， 我 们 已 经 使 用 rownames O 函数 取得 了 baskets.NBA2016.Team 的 行 名 ， 但 
是 名 称 似乎 太 长 了 ， 下 一 个 实例 是 更 改行 名 。 
实例 ch5_38 : 将 矩阵 对 象 baskets.NBA2016.Team 的 两 个 行 名 分 别 改 成 Lin 和 Jordon。 


> rownames(baskets.NBA2016.Team) «- c("Lin", "Jordon") 

> rownames(baskets .NBA2016. Team) 

[1] "Lin" "Jordon" 

> 

从 实例 ch5_36 可 知 baskets.NBA2016.Team 矩阵 对 象 共有 6 列 ， 其 实 每 一 列 代表 每 一 场 球 ， 我 
们 可 参考 下 列 实例 ， 设 定 对 象 的 列 名 。 
实例 ch5_39 : 设 定 baskets.NBA2016.Team 对 象 的 列 名 。 


> coLnamesCbaskets.NBA2016.Team) ## 了 解 对 象 目前 没有 列 名 
[1] "ist" "2nd" "3th" "4th" "Sth" "6th" 
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> colnames(baskets.NBA2016.Team) <- c("ist", "2nd", "3th", "4th", "Sth", "6th") # 设 定 列 名 
> colnames(baskets .NBA2016. Team) ## 验 证 结果 
[1] "ist" "2nd" "3th" "4th" "Sth" "6th" 


> baskets.NBA2016.Team 153—533 UAR 
1st 2nd 3th 4th Sth 6th 
Lin 7 8 611 9 12 


Jordon 12 8 9 15 7 1i 
> 


如 果 我 们 想 要 修改 某 个 列 名 ， 那 么 可 参考 下 列 实例 。 
实例 ch5_40 : 将 第 4 列 的 列 名 由 “4th”, 改 成 “4"。 本 实例 笔者 会 先 复制 一 份 矩 阵 对 象 baskets. 
NEW， 然 后 再 使 用 这 份 新 的 对 象 进行 修改 列 名 的 操作 。 


> baskets.NBA2016.Team 

1st 2nd 3th 4th 5th 6th 
Lin 7 & 90 1 9 £2 
Jordon 12 8 9 15 7 12 
» baskets.New «- baskets.NBA2016.Team 
» colnames(baskets.New)[4] «- "4" 


» baskets.New HER 
ist 2nd 3th 4 Sth 6th 
Lin 7 8 61 920 


Jordon 12 8 915 7 12 
» 


如 果 我 们 想 要 将 整个 列 名 或 行 名 删除 ， 那 么 只 要 将 整个 列 名 或 行 名 设 为 NULL 即 可 。 
实例 ch5_41 : baskets.New 对 象 的 列 名 删除 。 


> baskets.New REJE 
1st 2nd 3th 4 5th 6th 
Lin 7 8.611 9 12 


Jordon 12 8 915 7 12 
> colnames(baskets.New) <- NULL 


> baskets .New # 验 证 结果 
[,1] [,2] [,3] L4] [,5] [,6] 
Lin 7 8 6 11 9 i2 


Jordon 12 8 9 15 7 1i 
> 


5-5-2 dimnames () 函数 


行 名 和 列 名 事实 上 是 存在 于 dimnames 的 属性 中 的 ， 我 们 可 以 使 用 dimnames () 函数 取得 和 修 
改 这 个 属性 值 。 
实例 ch5_42 : 使 用 dimnames () 函数 取得 矩阵 对 象 的 行 名 和 列 名 。 

> dimnames(baskets.New) 

LE] 

[1] "Lin" "Jordon" 


Lt21] 
NULL 
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由 上 述 执行 结果 可 以 知道 ， 目 前 baskets.New 对 象 的 两 个 行 名 分 别 是 “Lin”“Jordon”， 没 有 
列 名 。 
实例 ch5_43 : 使 用 dimnames () 函数 设 定 矩 阵 对 象 的 列 名 。 

> dimnames(baskets.New)[[2]] <- cC"ist", "2nd", "3rd", "4th", "Sth", "6th") 

» dimnames(baskets.New) 


Lr111 
[1] "Lin" "Jordon" 


[[2]] 
[1] "1st" "2nd" "3rd" "Ath" "Sth" "6th" 


> 


臣 可 将 行 名 或 列 名 作为 索引 


R 的 重要 特色 是 ， 当 一 个 矩阵 有 了 行 名 和 列 名 后 ， 可 以 用 这 些 名 称 代替 数字 型 的 索引 ， 取 得 
和 矩阵 对 象 的 元 素 ， 让 整个 程序 的 可 读 性 更 高 。 
实例 ch5_44 : 使 用 baskets.New 对 象 ， 取 得 Lin 第 3 场 的 进 球 数 。 


> baskets.New["Lin", "3rd"] 
[1] 6 


> 


实例 ch5_45 : 使 用 baskets.New 对 象 ， 取 得 Jordon 第 2 场 和 第 5 场 的 进 球 数 。 


> baskets.New["Jordon", c("2nd", "5th")] 
2nd 5th 

8 7 
> 


实例 ch5_46 : 使 用 baskets.New 对 象 ， 取 得 Jordon 所 有 场次 的 进 球 数 。 


> baskets.New["Jordon", ] 
1st 2nd 3rd 4th 5th 6th 
12 8915 712 
> 


实例 ch5_47 : 使 用 baskets.New 对 象 ， 取 得 第 5 场所 有 球员 的 进 球 数 。 


> baskets.New[ , "Sth"] 
Lin Jordon 
9 7 
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矩阵 的 运算 


5-7-1 和 托 阵 与 一 般 常 数 的 四 则 运 


当 碰 上 矩阵 对 象 与 一 般 常 数 的 运算 时 ， 只 要 将 各 个 元 素 与 该 常数 分 别 执行 运算 即 可 。 在 正式 
介绍 实例 前 ， 笔 者 先 建立 下 列 ml.matrix 矩阵 。 


> ml.matrix <- matrix(1:12, nrow = 3) 
> mi.matrix 
L1] [,2] L3] [,4] 
i1, T 4 7 10 
[2,] 2 5 8 1 
[3,] 3 6 9 ai 


实例 ch5. 48 : 将 ml. matrix 矩阵 加 3 的 实例 


> m2.matrix <- ml.matrix + 3 
> m2.matrix 

L1] L2] L3] [,4] 
[] ^4 7 10 13 
[5] 5 8 11 14 
B] 6 9 i2 15 


> 


实例 ch5_49 : 将 m2.matrix 矩阵 减 1 的 实例 。 


> m3.matrix «- m2.matrix - 1 
» m3.matrix 

[,1] [,2] [,3] [,4] 
[1,] 3 6 9 n 
t2. 4 7 10 13 
[5,3 5 8 11 14 
> 


实例 ch5_50 : 将 m3.matrix 矩阵 乘 5 的 实例 。 


> m4.matrix «- m3.matrix * 5 
» m4.matrix 

L1] L2] L3] [,4] 
[1,] 15 30 45 60 
[2,] 20 35 50 65 
[3,] 25 40 55 70 
> 


实例 ch5_51 : 将 m4.matrix EER 2 的 实例 。 


> m5.matrix «- m4.matrix / 2 
» m5.matrix 

L1] L2] [,3] [,4] 
[1,] 7.5 15.0 22.5 30.0 
[2,] 10.0 17.5 25.0 32.5 
[3,] 12.5 20.0 27.5 35.0 
- 
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实例 ch5_52 : 将 ml. matrix 加 上 m2.matrix， 执 行 两 个 矩阵 相 加 的 实例 。 


> m6.matrix «- ml.matrix + m2.matrix 
> m6.matrix 
L1] L2] [,3] [4] 
[] 5 n i 23 
[2,1 7 1239 19 B 
D3 9 15 21 27 
> 


特别 需要 留意 的 是 ， 两 个 矩阵 能 进行 四 则 运算 的 先决 条 件 是 它们 彼此 的 维度 相同 ， 否 则 会 出 
现 错误 信息 。 有 意思 的 是 ，R 是 允许 矩阵 对 象 和 向 量 对 象 相 加 的 ， 只 要 矩阵 的 行 数 与 向 量 长 度 相 
同 即 可 ， 可 参考 下 列 实例 。 
实例 ch5_53 : 矩阵 与 向 量 相 加 的 运算 实例 。 


> ml.matrix 

L1] L2] [,3] [,4] 
[.] 1 4 7 19 
RI 2 5 8 n 
[3,] 3 6 9 2 
> m7.matrix <- ml.matrix + 11:13 
> m7.matrix 

L1] L2] L3] D,4] 
[1,] 12 15 18 21 
[2,] 14 17 20 23 
[3] 16 19 22 25 
> 


如 果 矩 阵 的 列 数 与 向 量 长 度 相 同 ， 也 可 以 进行 相 加 运算 ， 但 一 般 不 常用 ， 读 者 可 以 自行 测试 
了 解 。 和 矩阵 也 可 与 向 量 相 乘 ， 只 要 向 量 长 度 与 矩阵 行 数 相同 即 可 。 
实例 ch5_54 : 矩阵 与 向 量 相 乘 的 运算 实例 。 


> ml.matrix 

L1] L2] [,3] [,4] 
[1,1 1 4 7 10 
[2,1 2 S 8 11 
[3.1 3 6 9 i2 
> m8.matrix <- ml.matrix * 1:3 
> mB.matrix 

L1] L2] [,3] [,4] 
[1,] A 4 7 10 
[2,1 4 10 16 Z2 
[3,3 9 18 27 36 
- 


ExBüp (EDU, RHA4 TÓBPESS— (TR PU 763 5 I8] CH SS — T GAS TRARE, HEURE 1。 
RPESS —f1 BU 763 I6] ARAR, AER 2. RES — (T8073 263 3 I6] ER SS 
三 个 元 素 相 乘 ， 此 例 是 乘 3。 
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特别 需要 说 明 的 是 ,“*” 乘 号 是 单一 元 素 逐 步 操作 的 ， 如 果 是 要 计算 矩阵 的 内 积 ， 则 需 使 用 
另 一 个 特殊 的 矩阵 相 乘 符号 “%*96"， 将 在 5-7-4 节 说 明 。 


5-7-2 行 (Row ) 和 列 (Column ) 的 运算 


在 4-2 节 中 笔者 介绍 了 向 量 对 象 常用 的 函数 sum () 和 mean. ()， 这 些 函 数 已 被 修改 可 应 用 于 和 矩 
阵 。 
口 rowSums () : 计算 行 中 元 素 的 总 和 。 
口 colSums () : 计算 行 中 元 素 的 总 和 。 
口 rowMeans () : 计算 行 中 元 素 的 平均 值 。 
口 colMeans O : 计算 列 中 元 素 的 平均 值 。 


实例 ch5 55 : 利用 rowSums () 和 rowMeans () 函数 ， 以 及 baskets.New 对 象 计算 Lin 和 Jordon 的 
总 进 球 数 和 平均 进 球 数 。 


> baskets.New 
[,1] [,2] [,3] [,4] [,5] [,6] 
Lin 7 8 6 11 9 i2 
Jordon 12 8 9 15 Z. 42 
> rowSums(baskets New) ## 计 算 总 进 球 数 
Lin Jordon 
53 63 
> rowMeans(baskets .New) BYRNDESSHERRIÉK 
Lin Jordon 
8.833333 10.500000 
> 


使 用 上 述 rowSums () 和 rowMeans () 函数 一 次 可 计算 所 有 行 的 数据 ， 假 设 只 想 要 一 个 人 的 数 
据 ， 可 回头 使 用 sum () 和 mean O PR. 


实例 ch5_56 : 利用 sum () 和 mean O FR, DUX baskets.New 对 象 计算 Lin 的 总 进 球 数 和 平均 进 
球 数 。 


> baskets.New 

ist 2nd 3rd 4th 5th 6th 
Lin 7" & 611 9 12 
Jordon 12 8 9 15 7 12 
> sum(baskets.New["Lin", ]) 
[1] 53 
» mean(baskets.New["Lin", ]) 
[1] 8.833333 
- 
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> baskets.New 
1st 2nd 3rd 4th 5th 6th 
Lin 7 8 6119 12 


Jordn 12 8 9 15 7 12 
> colSums(baskets.New) 

1st 2nd 3rd 4th 5th 6th 

19 16 15 26 16 24 

> colMeans(baskets.New) 

ist 2nd 3rd 4th 5th 6th 
9.5 8.0 7.5 13.0 8.0 12.0 
> 


使 用 上 述 colSums O 和 colMeans () 函数 一 次 可 计算 所 有 列 的 数据 ,假设 只 想 要 一 场 比赛 的 
数据 ， 可 回头 使 用 sum () 和 mean () 函数 。 
实例 ch5_58 : 使 用 baskets.New 对 象 计算 第 3 场次 的 总 进 球 数 和 平均 每 位 球员 的 进 球 数 。 


> baskets.New 

1st 2nd 3rd 4th Sth 6th 
Lin 7 8611 9 122 
Jordon 12 8 9 15 7 12 
» sum(baskets.New[ , "3rd"]) 
[1] 15 
» mean(baskets.New[ , "3rd"]) 
[1] 7.5 
> 


5-7-3” 转 置 算 阵 
tO 函数 可 执行 矩阵 转 置 ， 转 置 矩 阵 后 ， 和 矩阵 的 行列 元 素 将 互相 对 调 。 
实例 ch5_59 : 将 baskets.New 和 矩阵 执行 转 置 。 


> baskets.New 

1st 2nd 3rd 4th 5th 6th 
Lin 7 8 611 9 i 
Jordon i2 8 9 15 7 12 
» t(baskets.New) 


Lin Jordon 
1st 7 12 
2nd 8 8 
3rd 6 9 
4th 11 15 
5th 9 A 
6th 12 12 


> 


5-7-4 %*% kn[e RH3fE 
和 矩阵 对 象 相 乘 的 运算 基本 上 和 数学 矩阵 相 乘 是 一 样 的 。 
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实例 ch5_60 : 分 别 使 用 “*” 和 “%*%” 计 算 和 矩阵 和 向 量 的 乘法 。 


> mi.matrix 

L1] L2) L,3] EY 
[] 1 4 7 10 
RI 2 5S 5 H 
[3,1 3 6 9 i2 
> m9.matrix <- ml.matrix * 1:4 
> m9.matrix 

L1] L2] L3] [和 
[1] 1 16 21 20 
[2] 4 5 32 3 
B] 9 i2 9 48 
> mlQ.matrix <- ml.matrix %*% 1:4 
> m10.matrix 

L1] 
[1,] 70 
[2,] 80 
[3,] 90 
> 


读者 可 以 试 着 比较 上 述 运算 结果 。 
实例 5_61 : 两 个 3 行 3 列 和 矩阵 乘法 的 应 用 。 
> mil.matrix <- matrix(1:9, nrow = 3) 


> mil.matrix %*% m11.matrix 
L1] [,2] [,3] 

[1] 30 66 102 

[2,] 36 81 126 

[3,] 42 96 150 

> 


矩阵 相 乘 时 最 常 发 生 的 错误 是 两 个 相 乘 矩 阵 的 维度 不 符合 矩阵 运算 原则 ， 此 时 会 出 现 “ 非 调 
和 自 变量 ”错误 信息 ， 如 。 


> nl <- matrix(1:9, nrow = 3) 

> n2 «- matrix(1:8, nrow = 2) 

> ni X** n2 

Error in ni X*X n2 : 非 调和 自 变 量 
> 


5-7-5 diag () 


diag () 函数 很 活 ， 当 第 一 个 参数 是 矩阵 时 ， 可 传 回 和 矩阵 对 角 线 的 向 量 值 。 
实例 ch5_62 : 在 各 种 不 同 维度 的 数组 中 ， 传 回 和 矩阵 对 角 线 的 向 量 值 。 


> ml.matrix 

[;1] [,2] [,3] [,4] 
3 1 4 7 3 
p 2 8 11 


5 
[5] 3 6 9 R 
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> diag(ml.matrix) 


[1159 
» baskets.New 

1st 2nd 3rd 4th 5th 6th 
Lin 了 8 61 9 r 


Jordon 12 8 9 15 7 12 
> diag(baskets.New) 
[1178 


diag () 函数 的 另 一 个 用 法 是 传 回 矩阵 ， 此 矩阵 的 对 角 线 是 使 用 x 向 量 值 ， 其 余 填 0。 该 命令 
的 格式 如 下 所 示 。 

diag ( x, nrow, ncol ) 

其 中 x 是 向 量 ，nrow 是 矩阵 行 数 ，ncol 是 矩阵 列 数 。 若 省 略 nrow 和 ncol WH x 向 量 元 素 个 数 
(假设 是 n ) 建立 n 行 n 列 矩阵 。 
实例 ch5_63 : 使 用 diag O 函数 传 回 矩 阵 的 实例 。 


> diag(1:5) 

L,1] L2] [,3] [,4] [,5] 
[1 i 0 9 0a 
2] e 2 e e e 
B] e eo 3 e 9 
[n] 6 Oo 0 4 9 
[5] e eo eo e s 


» diag(1, 3, 3) 

L1] L2] 3] 
[1,] 1 6 e 
[2,] 6 1 e 
[51 0 $ 1 
» diag(1, 2, 4) 

L1] [,2] 3] [,4] 
[1,] 1 6 6 9 
[2,] e 1 e e 
» diag(1:2, 3, 4) 

[,1] L2] [,3] [,4] 


nI 1 © 0 e 
2] 6 2 0 9 
GI] 9 0 1 9 


5-7-6 solve () 


使 用 solve O 函数 可 传 回 反 矩阵 ， 使 用 这 个 函数 时 要 小 心 ， 有 时 会 碰 上 小 数字 数 被 舍弃 的 问题 。 
实例 ch5_64 : 反 和 矩阵 的 应 用 。 


> n3 «- matrix(1:4, nrow = 2) 
> solve(n3) 
L1] [,2] 
[,] -2 15 
[2,] 1 -0.5 


> 


5-7-7 det ©) 


实例 ch5_65 : det () 函数 的 应 用 。 


EX 三 维 或 高 维 数组 


在 R 语 言 中 ， 如 果 将 矩阵 的 维度 加 1， 则 
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det 是 指数 学 中 的 行列 式 ( Determinant )， 这 个 函数 可 以 计算 矩阵 的 行列 式 值 ( Determinant )。 


> n3 

L1] D2] 
] 1 3 
2J] 2 4 
> det(n3) 
[1] -2 


> 


维 数组 ， 这 个 维度 是 可 视 需 要 而 持续 增加 的 。 


虽然 R 程序 设计 师 较 少 用 到 三 维 或 更 高 维 的 数据 结构 ， 但 在 某 些 含 时 间 序 列 的 应 用 中 ,是 有 可 能 
用 到 的 。 


5-8-1 建立 三 维 数组 


array () 函数 可 用 于 建立 三 维 数组 ， 笔 者 直接 以 实例 解说 。 
实例 5_66 : 建立 一 个 元 素 为 1:24 的 三 维 数组 , 行 数 是 3， 列 数 是 4， 表格 数 是 2。 


> first.3array <- array(1:24, dim = c(3, 4, 2)) 


» first.3array 
231 


[1] L2] E31] [,4] 

1 4 7 10 
2] 2 5 8 n 
D] 3 6 9 iz 


L1] L2] [,3] [,4] 
[] 13 16 19 22 
[2,] 14 i7 20 23 
[3,] 15 18 21 24 


由 上 述 实 例 可 知 ， 第 一 个 表格 填 完 后 再 填 第 二 格 表 ， 而 填 表 方式 与 填 和 矩阵 方式 相同 。 此 外 ， 
我 们 也 可 以 使 用 dim O 函数 建立 三 维 数组 ， 方 法 是 将 一 个 向 量 ， 利 用 dim O 函数 转 成 三 维 
数组 。 
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实例 5_67 : 用 dim () 函数 重建 上 一 个 实例 的 三 维 数组 的 实例 。 


> second.3array «- 1:24 

> dim(second.3array) <- cQ3, 4, 2) 
» second.3array 

，»1 


[,1] [,2) [,3] [,4] 
GO] 1 4 7 10 
[2] 2 5 8 n 
B] 3 6 9 2 


n 


L1] [,2] [,3] [,4] 
[1,] 13 16 19 2 
[2,] 14 17 20 23 
[3,] 15 18 21 24 


5-8-2 identical O 函数 


identical () 函数 主要 是 用 于 比较 两 个 对 象 是 否 完全 相同 。 
实例 ch5 68 : 比较 first.3array 和 second.3array 对 象 是 否 完全 相同 。 


> identical(first.3array, second.3array) 
[1] TRUE 
> 


5-8-3 ”取得 三 维 数组 的 元 素 

取得 三 维 数组 的 元 素 的 方法 与 取得 向 量 或 矩阵 元 素 的 方法 相同 也 是 使 用 索引 ， 可 参考 下 列 实例 。 
实例 ch5_69 : 取得 第 2 个 表格 , 第 1 行 , 第 3 列 的 元 素 。 

> first.3array[1, 3, 2] 


[1] 19 
> 


实例 ch5_70 : 取得 第 2 个 表格 中 ,除去 第 3 行 , 第 1 至 3 列 的 元 素 。 


> first.3array[-3, 1:3, 2] 
L1] L2] [,3] 

[1,] 13 16 19 

[2,] 14 17 20 

> 


由 上 述 结 果 可 以 发 现 ， 原 先 first.3array 为 数组 对 象 经 筛选 后 ， 变 成 矩阵 。 如 果 期 待 筛选 完 ， 
对 象 仍 是 三 维 数组 ， 那 么 可 加 上 参数 “drop = FALSE". 


实例 ch5_71 : 重新 设计 ch5_70， 保持 筛选 结果 是 三 维 数组 。 


> first.3array[-3, 1:3, 2, drop = FALSE] 
1 
mE 


[,1] [,2] [,3] 
[1] 13 16 19 
[2,] 14 17 20 


实例 ch5. 72 : 筛选 出 每 个 表格 的 第 3 行 的 数据 。 


> first.3array[3, , ] 
L1] L2] 

[1,] 3 15 

[2,] 6 18 

BJ 9 2 

[4,] 12 24 

> 
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细心 的 读者 应 该 发 现 ， 原 先 第 3 行 的 数据 ， 已 经 不 是 筛选 后 第 3 行 的 数据 了 。 这 是 因为 降 维 
度 后 , 第 1 个 表格 的 数据 以 列 优先 方式 先 填充 ,第 2 个 表格 再 依 此 填充 , 所 以 可 以 得 到 上 述 结果 。 


实例 ch5_73 : 筛选 出 每 个 表格 的 第 2 列 的 数据 。 


> first.3array[ , 2, ] 


L1] [,2] 
[1] 4 16 
E s 
[3,] 6 18 
> 


EX 再 谈 class () 函数 


在 前 一 章 我 们 介绍 使 用 class O 函数 时 ， 如 果 将 向 量变 量 放 在 此 函数 内 时 ， 可 列 出 此 向 量变 


量 元 素 的 数据 类 型 ， 如 果 将 矩阵 放 入 此 函数 内 ,结果 如 何 呢 ? 
实例 ch5_74 : class () 函数 的 参数 是 矩阵 变量 的 应 用 。 


> first.matrix <- matrix(1:12, nrow = 4) 
» class(first.matrix) 

[1] "matrix" 

- 


上 述 命令 的 执行 结果 是 “Matrix”。 
实例 ch5_75 : class O 函数 的 参数 是 数组 变量 的 应 用 。 
> first.3array <- array(1:24, dim = c(3, 4, 2)) 


» class(first.3array) 
[1] "array" 
> 
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上 述 命令 的 执行 结果 是 “array”。 同 样 的 方法 可 以 应 用 于 未 来 几 章 要 介绍 的 因子 (Factor), t 
HEHE ( Data Frame ) 和 串 行 (List )。 但 是 如 果 class () 函数 放 入 的 参数 是 变量 ( 例如 ， 和 矩阵 ) 的 特 
定 元 素 ， 则 将 显示 该 元 素 的 数据 型 态 。 
实例 ch5 76 : class () 函数 的 参数 是 矩阵 特定 元 素 的 应 用 。 


> first.matrix «- matrix(1:12, nrow = 4) 
» class(first.matrix[2, 3]) 

[1] "integer" 

> 
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本 章 习题 


一 、 判 断 题 


( 
( 


En 
)2. 


) 6. 
y. 


使 用 rbind O 将 两 个 向 量 做 行 合并 ， 向 量 的 长 度 不 一 定 要 相等 。 
有 如 下 两 个 命令 。 


> X <- matrix(1:12, nrow = 4, byrow = TRUE) 
> X 


上 述 命令 执行 后 ， 下 列 的 执行 结果 是 正确 的 。 


[,1] [,2] [,3] 
Hi 1 5 9 
[2] 2 6 1 
D 3 7 n 
[^] ^4 8 i 


. 有 如 下 命令 。 


> str(x) 
int [1:4, 1:3] 1234 567 8 9 10 ... 


由 上 述 执行 结果 可 知 ，x 是 一 个 矩阵 ( Matrix )。 
有 如 下 两 个 命令 。 


> X <- matrix(1:12, nrow = 4) 
» is.array(x) 


上 述 命令 的 执行 结果 如 下 所 示 。 
[1] TRUE 


. 有 如 下 两 个 命令 。 


> X <- matrix(1:12, nrow = 3) 
> x[-cC2, 35] 


上 述 命令 的 执行 结果 如 下 所 示 。 
L1] L2] [,3] [,4] 
[] 1 ^4 7 10 
使 用 names () 函数 可 以 更 改 矩阵 的 行 名 和 列 名 。 
有 如 下 命令 。 


> dimnames(x) 
CE1] 
[1] "A" "B" "C" 


[E21] 
NULL 
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由 上 述 执行 结果 可 以 知道 ， 目 前 x 对 象 的 行 名 分 别 是 “A”、“B”"、“C”， 没有 列 名 。 
( ”) 8. BR 是 允许 矩阵 和 向 量 相 加 的 ， 只 要 矩阵 的 行 数 与 向 量 长 度 相同 即 可 。 
( ”) 9， 有 如 下 两 个 命令 。 

> x1 <- matrix(1:9, nrow = 3) 

> X2 «- matrix(1:8, nrow = 2) 

> x1 X*X x2 

上 述 命令 的 执行 结果 如 下 所 示 。 


[,1] L2] [,3] 
[1,] 30 66 102 
[2,] 36 81 126 
[3,] 42 96 150 


( 210. 有 如 下 命令 。 
> diag(1, 3, 3) 
上 述 命 令 的 执行 结果 如 下 所 示 。 
[,1] [,2] [,3] 
[1,] 1 e e 
2] © 1 e 
下 


. 可 使 用 下 列 命令 ， 建 立 一 个 元 素 为 1:24 的 三 维 数组 ， 行 数 是 3， 列 数 是 4， 表格 数 是 


2 


> x <- array(1:24, dim = c(3, 4, 2)) 


二 、 单 选 题 

C )L 已 知 如 下 3 个 向 量 。 
a<-c (1,2,3) 
b<-e (4,5,6) 
e«-c(7,8,9) 
想 要 生成 如 下 矩阵 。 
1 2 3 


7 8 9 

可 以 使 用 下 列 哪个 命令 ? 

A. cbind (a, b,c) B. rbind (a, b, c ) 

C. matrix ( a, b, c ) D. matrix (c (a,b,c) , ncol 23) 


( 22. 以 下 命令 会 得 到 哪个 输出 结果 ? 
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»x«-c(, 3, 5) 
> y <- cG, 2, 10) 


» cbind(x, y) 
A. 长度 为 3 的 Vector B. 一 个 3*2 的 Matrix 
C. —^ 3*3 的 Matrix D. —^ 2*3 的 Matrix 


以 下 命令 会 得 到 哪个 输出 结果 ? 


> x <- matrix(4:15, nrow = 3 ) 


>x 
A. [1] L2] [,3] [,4] B. [,1] [,2] [,3] 
[] ^4 7 i6 B [L1] 4 $ i? 
[5] 5 8 n 14 [2] 5 9 B 
B] 6 9 i2 15 B] 6 10 14 
[4] 7 1 i5 
C. [,1] L2] [,3] L4] D. L1] L2] D,31 
nI 4 5 6 7 [4] 4 5 6 
[5] 8 9 10 n [1 7 8 9 
[3] 12 13 14 15 D, 10 in i 


[4] 13 14 15 
以 下 命令 会 得 到 下 列 哪个 结果 ? 


> X «- matrix(1:12, nrow = 3) 
» x[2, 3] 


A.[1]6 B.[1]5 C.[1]8 D.[1]9 
以 下 命令 会 得 到 哪个 输出 结果 ? 


> X <- matrix(1:12, nrow = 3) 
» ncol(x) 


A.[1]3 B.[1]4 eiiis D.[1]6 
以 下 命令 会 得 到 哪个 结论 ? 


> dim(x) 
[1] 3 4 


A. x 对 象 的 行 数 是 3 B. x 对 象 的 行 数 是 4 
C. x 对 象 的 列 数 是 3 D. x 对 象 的 行 数 是 7 
以 下 命令 会 得 到 哪个 输出 结果 ? 


> dim(x) 
[1] 34 
> length) 


A. [1]3 B.[1]4 C. [1]7 D. [1] 12 
以 下 命令 会 得 到 哪个 输出 结果 ? 
> cbind(4:6, 11:13, matrix(1:6, nrow = 3)) 
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( 


)9. 


) 12. 


A. E,1] E21 [,3] E,41 
[] 1 4 7 1 
[1] 2 5 8 n 
D 3 6 9 rz 


C. L,1] L2] [,3] [,4] 
[,] 4 n 1 4 
Dg saa z2 5 
[5] 6 13 3 6 


以 下 命令 会 得 到 哪个 输出 结果 ? 
> X <- matrix(10:21, nrow = 3) 
> xt2, ] 


A.[1]11 14 17 20 
C.[1] 10 11 12 


. 以 下 命令 会 得 到 哪个 输出 结果 ? 


> X «- matrix(1:20, nrow = 4) 
> x[3:4, 4:5] 


A. [,1] E,2] 
[,] 9 B 
[2] 10 14 

C. L1] [,2] 

[1,] 3 7 
[5] ^4 8 


. 以 下 命令 会 得 到 哪个 输出 结果 ? 


> X <- matrix(1:20，nrow = 4) 
> X[-c(3:4)，-2] 


A. L,1] [,2] L3] [,4] 
[1,] 1 9 25 17 
[2] 2 10 14 18 


C. [,1] E,2] [,3] [,4] 
[l] 2 10 14 18 
RI 3 1n 15 19 
D. ^4 i2 16 20 


以 下 命令 会 得 到 哪个 输出 结果 ? 


> X «- matrix(1:20, nrow = 4) 
» rowSums(x) 


A. [1] 2.5 6.5 10.5 14.5 18.5 
C. [1] 45 50 55 60 


B. [,1] [,2] [,3] [,4] 
[] 4 7 10 13 
[D] 5 8 1 1n 
B] 6 9 i 15 

D. [,1] E,2] E,31 D,41 
pg zs s H 
[1] 3 6 9 i; 
B] 4 7 10 13 

B. [1] 10 13 16 19 

D. [1] 13 14 15 

B. E,1] E,2] 

[1] 15 19 
[2,] 16 20 
D. L1] E,2] 
[1] 6 10 
1 7 1 

B. [,1] [,2] [,3] E,41 
[] 5 9 13 i 
[2,] 6 10 14 18 


D. [1] E21 [,3] 
wi 1i S i 
RI 3 7 19 
B] 4 8 æ 


B. [1] 10 26 42 58 74 
D. [1] 9101112 
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C 2) 13. 以 下 命令 会 得 到 哪个 输出 结果 ? 


> X <- array(1:24, dim = c(3, 4, 2)) 
> x[1, 2, 2] 


A. [1] 13 B. [1] 14 é mis D. [1] 16 
C 214. 以 下 命令 会 得 到 哪个 输出 结果 ? 


> x <- array(1:24, dim = c(3, 4, 25) 
» class(x[1, 2, 2]) 


A. [1] "integer" B. [1] "array" 
C. [1] "character" D. [1] "matrix" 
三 、 多 选 题 


( ) 1， 以 下 哪些 class 命令 的 执行 结果 为 “matrix”? (选择 3 项 ) 
A. > class(cbind(c(1, 2), c(2, 4))) 
B. > class(c(, 25) 
C. >a <- 1:6 


> dim(a) «- c(2, 3) 
» class(a) 


D. » a «- matrix(0,1,2) 
» class(a) 


E. > class(1«2*3/4-5) 
( ”) 2 有 一 个 如 下 命令 。 
> x <- matrix(1:12, nrow = 3) 
以 下 哪些 命令 可 将 矩阵 的 行 名 分 别 设 为 “R1”、“R2” 和 “R3”? (选择 两 项 ) 
A. > rownames(x) <- cC"R1", "R2", "R3") 
B. > colnames(x) <- c("R1", "R2", "R3"j 
C. > rownames(x) <- ("R1", "R2", "R3") 
D. > dimnames(x)[[1]] <- cC"R1", "R2", "R3") 
E. > dimnames(x)[[2]] <- cC'RI", "R2", "R3") 


四 、 实 际 操作 题 ( 如 果 题 目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 
1. ”建立 以 下 元 素 内 容 为 1:30 EE, 

(1)5 行 6 列 的 矩阵 ， 排 列 使 用 默认 值 。 

(2)5 行 6 列 的 矩阵 ， 排 列 使 用 byrow = TRUE. 
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(3) 使 用 str O 函数 列 出 上 述 矩 阵 。 
2. ”有 如 下 3 个 向 量 。 
xl<-e(10,12,14) 
x2«-c (7,14,5) 
x3 <- c (15,3, 19) 
C1) 使 用 tbind O 将 上 述 向 量 组 成 矩阵 Al。 
(2) 使 用 cbind () 将 上 述 向 量 组 成 矩阵 A2。 
(3) 列 出 Al 矩阵 中 [1:2, ] 对 应 的 元 素 。 
(4) 列 出 Al 矩阵 中 [1:2, 2:3 对 应 的 元 素 。 
(5) 列 出 A2 矩阵 中 [, 2:3] 对 应 的 元 素 。 
(6) 列 出 A2 矩阵 中 [2:2, 2:3 对 应 的 元 素 。 
(7) 取得 Al 矩阵 中 第 1 行 以 外 的 矩阵 元 素 。 
(8) 取得 A2 矩阵 中 第 2 列 以 外 的 矩阵 元 素 。 
将 第 2 章 实际 操作 题 中 的 习题 2 的 NBA 球星 5 人 向 量 组 成 矩阵 。 
为 上 一 题 的 NBA 球星 数据 矩阵 设 定 行 名 ( 使 用 球星 名 字 ) 和 列 名 ( 使 用 场次 编号 )。 
使 用 rowSums () 函数 为 上 述 球星 计算 总 得 分 。 
使 用 rowMeans () 函数 为 上 述 球星 计算 平均 得 分 。 


收集 2 个 班级 ，5 位 同学 ,数学 和 R 语言 的 成 绩 ， 学 生 数 据 用 ID 表示 ， 然 后 将 数据 建立 为 3 
维 数组 ( Array )。 


ph guo woo Nes A» 


因子 Factor 
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在 真实 的 世界 中 ， 我 们 会 遇 上 各 类 的 数据 。 例 如 ,形容 天 气 ， 可 用 “晴天 ”“ 阴 天 ”“ 雨 天 ”。 
列举 球 类 运动 ， 可 用 “篮球 ” “棒球 ” "足球 "。 形 容 汽车 颜色 ， 可 用 “ 蓝 色 "”“ 黑 色 ”“ 银 色 ” 等 。 
EJE, PH “Yes” P “No”, 在 R 语 言 中 ,我 们 称 以 上 分 类 的 数据 为 分 类 数据 (Categorical 
Data )« 

在 分 类 数据 中 ， 有 些 数据 是 可 以 排序 或 是 有 顺序 关系 称 有 序 因子 (Ordered Factor )。 

在 语言 中 有 一 个 特别 的 数据 结构 称 因 子 ( Factor )， 这 也 是 本 章 讨论 的 重点 。 不 论 是 字符 中 
数据 或 数值 数据 ， 皆 可 转换 成 因子 。 


| 使 用 factor () 或 as.factor () 函数 建立 因子 


使 用 factor () 函数 最 重要 的 参数 包括 以 下 两 个 。 
T) x 向 量 : 这 是 欲 转换 为 因子 的 向 量 。 
2) levels : 原 x 向 量 内 元 素 的 可 能 值 。 
实例 ch6_1 : 使 用 factor () 函数 建立 一 个 简单 的 因子 。 


> yes.Or.No <- c("Yes", "No", "No", "Yes", "Yes") 
> first.factor <- factor(yes.Or.No) 

» first.factor 

[1] Yes No No Yes Yes 

Levels: No Yes 

> 


对 上 述 实例 ch6_1 而 言 ， 我 们 可 以 说 ,我 们 已 经 建立 了 一 个 Yes 和 No 的 类 别 。 对 上 述 实例 而 
言 ， 我们 也 可 以 使 用 as.factor O 函数 取代 factor O 函数 。 
实例 ch6_2 : 使 用 as.factor O 函数 建立 与 ch6_1 相同 的 因子 。 

> yes.Or.No <- c("Yes", "No", "No", "Yes", "Yes") 

> second.factor <- as.factor(yes.Or.No) 

» second.factor 

[1] Yes No No Yes Yes 


Levels: No Yes 
> 


由 上 述 执行 结果 可 以 看 到 ,我 们 已 经 使 用 as.factor O 函数 建立 与 ch6_1 相同 的 因子 了 。 如 果 
现在 仔细 看 Levels， 可 以 看 到 类 别 顺序 是 先 有 No， 然后 是 Yes， 这 是 因为 R 语言 是 依照 字母 顺序 
排列 的 。 但 是 在 我 们 的 习惯 里 ， 一 般 顺 序 是 先 有 Yes, 然后 是 No. 这样 比较 顺 。 如 果 想 要 如 此 ， 
我 们 可 以 参考 实例 6 3， 在 建立 因子 时 ， 使 用 参数 levels 强制 设 定 分 类 数据 的 顺序 。 
实例 ch6_3 : 重新 建立 实例 ch6_1 所 建 的 因子 ， 此 次 使 用 levels 强制 设置 Yes 和 No 的 顺序 。 


> yes.Or.No <- c("Yes", "No", "No", "Yes", "Yes") 
> third.factor <- factor(yes.0r.No, levels = c("Yes", "No")) 
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> third.factor 

[1] Yes No No Yes Yes 
Levels: Yes No 

- 


从 上 述 执行 结果 可 以 看 到 ， 我 们 已 经 成 功 的 更 改 Levels 的 顺序 了 。 


[EE] 指定 缺失 的 Levels $ 


有 时 我 们 收集 的 向 量 数据 是 不 完整 的 。 磁 上 这 类 状况 也 可 以 使 用 levels 参数 设置 完整 的 Levels 


实例 ch6_4 : 先 建立 一 个 方向 数据 不 完整 的 因子 ， 缺 少 “South”。 


> directions «- c("East", "West", "North", "East", "West" ) 
» fourth.factor «- factor(directions) 

» fourth.factor 

[1] East West North East West 

Levels: East North West 


> 

从 上 述 执行 结果 可 以 看 到 Levels 缺少 “South”。 在 实际 的 应 用 中 ， 方 向 数据 应 该 包含 4 个 方 
向 ， 下 面 的 实例 会 将 “South” 补 上 去 。 
实例 ch6_5 : 为 fourth.factor 因子 补 上 “South”。 

> fifth.factor <- factor(fourth.factor, levels = c("East", "West", "South", 

"North")) 

» fifth.factor 

[1] East West North East West 


Levels: East West South North 
- 


从 上 述 执行 结果 可 以 看 到 Levels 类 别 顺序 内 有 “South” 了 。 


labels 参数 


使 用 factor O 函数 建立 因子 时 ， 如 果 有 需要 ， 可 以 使 用 第 3 个 参数 labels。 假 设 在 实例 ch6_5 
中 ,我 们 想 为 “East”“West”“South”“North” 建 立 缩 写 “E”“W”“S”“N”， 那 么 这 时 就 可 以 使 
FH labels T. 





实例 ch6. 6 : 建立 sixth.factor， 以 缩写 显示 因子 的 Levels 内 容 。 


> sixth.factor «- factor(fourth.factor, levels = c("East", "West", "South", 
"North"), labels = c("E", "W", "S", "N")) 

» sixth.factor 

[CEWNEW 
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Levels: E W SN 
> 


由 上 述 执行 结果 可 以 看 到 ， 我 们 成 功 以 缩写 显示 了 。 


DX 因子 的 转换 


在 某 些 时 候 ， 我 们 可 能 想 将 因子 转换 成 字符 串 向 量 或 数值 向 量 ， 这 时 可 以 使 用 下 列 函数 。 
as.character () : 可 将 因子 转换 成 字符 串 向 量 。 
as.numeric() : 可 将 因子 转换 成 数值 向 量 。 
实例 ch6_7 : 将 实例 ch6_5 所 建 的 fifth.factor 因子 转换 成 字符 串 向 量 
> fifth.factor 
[1] East West North East West 
Levels: East West South North 


» as.character(fifth.factor) 
[1] "East" "West" "North" "East" "West" 


实例 ch6_8 : 将 实例 ch6 5 所 建 的 fifth.factor 因子 转换 成 数值 向 量 


> fifth.factor 

[1] East West North East West 

Levels: East West South North 

» as.numeric(fifth.factor) 

[112412 

> 

需要 特别 注意 的 是 ,在 建立 因子 时 ，levels 为 “East” “West”“South”“North”"， 相 对 应 
as.numerie () 函数 的 返回 值 分 别 是 1、2、3、4。 所 以 ,“East”“West”“North”“East”“West” 的 
返回 值 分 别 是 1, 2, 4, 1, 2。 


[XE] 数值 型 因子 在 转换 时 常见 的 错误 


假设 有 一 个 数值 型 的 因子 记录 着 摄氏 温度 天 气 ， 如 下 所 示 。 


> temperature <- factor(c(28, 32, 30, 34, 32, 34)) 
- 


如 果 现 在 用 str O 函数 了 解 此 temperature 因子 ， 可 以 得 到 下 列 结果 。 
> str(temperature) 
Factor w/ 4 levels "28","30","32",..:13 243 4 
> 
可 以 得 到 levels 有 4 个 值 ， 分 别 是 “28”“30”“32”“34”"， 分别 对 应 1, 2, 3, 4。 所 以 对 于 
“28” "32" “30”“34”“32”“34” 可 以 传 回 “1,3,2;4,3,4。 
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现在 如 果 将 temperature 因子 转 成 字符 串 向 量 ， 将 可 以 得 到 下 列 结果 。 
> as.character(temperature) 

[1] "28" "32" "30" "34" "32" "34" 

E 


这 是 预期 的 结果 ， 但 是 如 果 将 此 temperature 因子 转 成 数值 向 量 ， 将 可 以 得 到 下 列 结果 。 


> as.numeric(temperature) 
[1]132434 
> 


很 明显 这 不 是 我 们 想 要 的 结果 。 碰 到 这 类 问题 时 ， 可 使 用 下 列 方式 解决 。 


> as.numeric(as.character(temperature)) 
[1] 28 32 30 34 32 34 


> 


也 就 是 将 as.character ( temperature ) 的 返回 值 ， 当 作 as.numeric () 函数 的 参数 。 


DX 再 看 levels 参数 


对 于 任何 因子 而 言 ， 我 们 都 可 以 使 用 str O 函数 查看 此 因子 的 结构 。 例 如 ， 参 考 fifth.factor， 
如 下 所 示 。 


> str(fifth.factor) 
Factor w/ 4 levels "East","West",..: 12 4 12 
> 


由 上 述 执行 结果 可 知 ，fifth.factor 因子 有 4 个 Levels 的 值 ， 分 别 是 “East” "West" «7 这 些 
值 对 应 的 整数 分 别 是 1, 2, 3, 4。 

对 于 任何 因子 而 言 ， 如 果 查 看 它 的 Levels， 均 可 以 使 用 levels () 函数 。 
实例 ch6_9 : 使 用 levels () 函数 ， 了 解 fifth.factor 的 Levels. 


> levels(fifth.factor) 
[1] "East" "West" "South" "North" 
> 


nlevels () 函数 可 传 回 levels 的 数量 。 
实例 ch6_10 : 使 用 nlevel () 函数 ， 了 解 fifth.factor 的 Levels 的 数量 。 


> nlevels(fifth.factor) 
[1] 4 


> 
由 上 述 执行 结果 可 知 ，nlevels () 传 回 的 是 一 个 数值 向 量 ， 此 数值 代表 Levels 的 数量 。length 
O 则 可 传 回 因子 元 素 的 数量 。 
实例 ch6_11 : 使 用 length () 函数 传 回 fifth.factor 的 元 素数 量 。 如 果 length O 函数 参数 放 的 是 
levels ( fifth.factor )， 则 可 传 回 Levels 的 数量 。 
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> length(fifth.factor) 

[1] 5 

» length(levels(fifth.factor)) 

[1] 4 

> 

R 语言 也 允许 levels () 函数 配合 索引 使 用 ， 只 取 Levels 的 部 分 内 容 。 
实例 ch6_12 : 只 取 fifth.factor 的 levels 的 后 3 个。 

> levels(fifth.factor)[2:4] 


[1] "West" "South" "North" 
> 


BRAF (Ordered Factor ) 


有 序 因子 主要 是 处 理 有 序 的 数据 ， 可 使 用 下 列 两 种 方法 建立 有 序 因 子 。 
1) ordered () 函数 。 


2) factor () 函数 ， 增 加 参数 “ordered = TRUE". 
实例 ch6_13 : 建立 系列 字符 “A”“B”“A”“C”“D”*“B”“D” 的 有 序 因子 。 


> BP «- CaA", "B, "A", "C", "D, "B", *"D*) 
> strl.order <- ordered(str1) 

> stri.order 

(l2ABACDBD 

Levels: A« B«C«D 

> 


在 上 述 执 行 结果 中 ， 留 意 ，Levels 中 的 方向 符号 “<”"， 可 由 这 个 符号 ,知道 这 是 有 序 因子 。 
在 上 述 实 例 中 ，R 语言 是 直接 依 字符 顺序 排列 的 ， 但 有 时 对 一 些 类 别 的 数据 ， 可 能 需要 我 们 自己 
定义 顺序 ， 例 如 ， 成 绩 系 统 ，A 的 等 级 是 最 高 ， 依 次 是 B, C, D 等 ， 我 们 可 以 使 用 下 列 实例 解决 这 
个 问题 。 
实例 ch6_14 : 重新 设计 实例 ch6_13， 使 Levels 顺序 如 下 。 

D«C«B«X 

»sstri € c('"A", "B*, "A^, "C". "D", "B"; "D'*) 

> strZ.order <- factor(strl, levels = c("D", "C", "B", "A"), ordered = TRUE) 

> str2.order 

[l]ABACDBD 


Levels: D < C « B« A 
> 


在 有 序 因 子 中 ,我 们 未 来 可 以 使 用 逻辑 运算 符 ， 筛 选 想 要 的 元 素 。 在 介绍 下 列 实例 前 ， 笔 者 
先 介绍 which () 函数 ， 这 个 函数 参数 是 一 个 逻辑 比较 ， 将 向 量 、 和 矩阵 或 因子 对 象 和 逮 辑 条 件 比 
较 ， 然 后 将 符合 比较 条 件 的 索引 值 传 回 。 
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实例 ch6_15 : 筛选 str2.order 有 序 因子 内 ， 成 绩 大 于 或 等 于 B 的 元 素 所 对 应 的 索引 值 。 


> str2.order 
[DABACDBD 

Levels: D<C<B<A 

> 

> which(str2.order >= "B") 
[1]123 6 

> 


由 结果 看 索引 值 1 (对 应 A)、 索 引 值 2 (对 应 B )、 索 引 值 3 ( 对 应 A )、 索 引 值 6 ( 对 应 B ) 
所 以 我 们 已 经 获得 想 要 的 结果 了 。 


[X table () 函数 


这 个 函数 可 以 自动 统计 在 因子 的 所 有 元 素 中 ，Levels 中 各 值 出 现 的 次 数 。 
实例 ch6_16 : (E table O 函数 测试 因子 firstfactor 和 有 序 因子 st2.order。 


> first.factor 
[1] Yes No No Yes Yes 
Levels: No Yes 
» table(first.factor) 
first.factor 

No Yes 

e£ 
> str2.order 
[1ABACDBD 
Levels: D« C« B« A 
» table(str2.order) 
str2.order 
DCBA 
和 


由 上 述 执行 结果 可 以 看 到 ， 对 于 一 般 因子 fnstfactor， 输 出 结果 是 依照 英文 字母 的 顺序 打印 出 
现 次 数 的。 对 有 序 因子 str2.order 而 言 ， 输 出 结果 是 依照 Levels (D, C, B, A) 的 顺序 打印 出 现 
次 数 的 。 这 对 于 大 数据 分 析 师 作 数 据 分 析 是 很 有 帮助 的 。 

本 节 结 束 前 ， 再 举 一 个 使 用 table O 函数 测试 一 个 向 量 和 有 序 因子 的 实例 ， 有 一 系列 如 下 数据 。 


> size «- c("small","large", "med", "large", "small", "large") 
> 


如 果 此 时 使 用 table O 函数 测试 ， 可 以 得 到 下 列 结果 。 


> table(size) 

Size 

large med small 
3 1 2 


- 
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实例 ch6 17 : 建立 一 个 有 序 因子 ， 同 时 用 table O 函数 测试 。 


> size.order <- factor(size, levels = c("small", "med", "large"), ordered = 
TRUE) 
» size.order 
[1] small large med large small large 
Levels: small « med « large 
» table(size.order) 
size.order 
small med large 
2 1 3 


[XE 认识 系统 内 建 的 数据 集 


state.name 是 一 个 向 量 对 象 ， 这 个 对 象 依 字 母 顺 序 排列 了 美国 50 个 州 ， 如 下 所 示 。 


> state.name 


[1] "Alabama" "Alaska" "Arizona" "Arkansas" 

[5] "California" "Colorado" "Connecticut" "Delaware" 

[9] "Florida" "Georgia" "Hawaii" "Idaho" 

[13] "Illinois" "Indiana" "Iowa" "Kansas" 

[17] "Kentucky" "Louisiana" "Maine" "Maryland" 

[21] "Massachusetts" "Michigan" "Minnesota" "Mississippi" 
[25] "Missouri" "Montana" "Nebraska" "Nevada" 

[29] "New Hampshire" "New Jersey" "New Mexico" "New York" 

[33] "North Carolina" "North Dakota" "Ohio" "Oklahoma" 

[37] "Oregon" "Pennsylvania" “Rhode Island" "South Carolina" 
[41] "South Dakota" "Tennessee" "Texas" "Utah" 

[45] "Vermont" "Virginia" "Washington" "West Virginia" 
[49] "Wisconsin" "Wyoming" 


> 


state.region 是 一 个 因子 ， 记 录 每 一 个 州 是 属于 美国 哪 一 区 的 ， 如 下 所 示 。 


> state.region 


[1] South West West South 

[5] West West Northeast South 

[9] South South West West 

[13] North Central North Central North Central North Central 
[17] South South Northeast South 
[21] Northeast North Central North Central South 
[25] North Central West North Central West 

[29] Northeast Northeast West Northeast 
[33] South North Central North Central South 
[37] West Northeast Northeast South 
[41] North Central South South West 

[45] Northeast South West South 


[49] North Central West 
Levels: Northeast South North Central West 
- 
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由 上 述 因 子 可 知 美国 可 分 成 东北 区 ( Northeast )、 南 区 ( South )、 中 央 北 区 ( North Central ) 和 
西区 (West )。 
可 用 table () 函数 统计 各 区 分 别 有 多 少 州 ， 如 下 所 示 。 


> table(state.region) 








state.region 
Northeast South North Central West 
9 16 12 13 
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( 


( 


( 
( 


( 


D. ordered ( x ) 


E-a 
本 章 习 题 
一 、 判 断 题 
) 1 有 如 下 两 个 命令 。 
> X «- c("Yes", "No", "Yes", "No", "Yes") 
» y «- factor(x) 
EÈ y I Levels 数量 有 5. 
) 2， 建 立 因子 (Factor) 时 ， 如 果 想 要 缩写 Levels 的 值 ， 可 以 使 用 labels 参数 配合 levels 
参数 做 设 定 。 
)3. as.character () 函数 : 可 将 因子 转换 成 字符 串 向 量 。 
) 4. as.numeric () 函数 : 可 将 数值 向 量 转换 成 因子 。 
二 、 单 选 题 
) 1 有 如 下 命令 。 
> X <- c("Yes", "No", "Yes", "No", "Yes") 
用 哪 一 个 命令 ， 可 以 得 到 下 列 结果 ? 
x 
No Yes 
2/3 
A. rev (x) B. table (x) C. factor (x ) 
) 2， 以 下 命令 会 得 到 哪 种 执行 结果 ? 
> X «- c("Yes", "No", "Yes", "No", "Yes") 
» y «- factor(x, levels - c("Yes", "No")) 
>y 
A. [1] Yes No Yes No Yes B. [1] Yes No Yes No Yes 
Levels: Yes No Levels: No Yes 
C. [1] Yes No Yes No Yes D. [YNYNY 
Levels: No « Yes Levels: Y N 
) 3.， 以 下 命令 会 得 到 哪 种 执行 结果 ? 


» X e- c("Yes", "No", "Yes", "No", "Yes") 
» y «- factor(x, levels - c("Yes", "No"), 
+ labels = c("Y", "N")) 

-y 


A. [1] Yes No Yes No Yes 


B. [1] Yes No Yes No Yes 
Levels: Yes No Levels: No Yes 


C. [1] Yes No Yes No Yes D. [IYNYNY 
Levels: No « Yes Levels: Y N 


C 204. 以 下 命令 会 得 到 哪 种 执行 结果 ? 


> X «- c("Yes", "No", "Yes", "No", "Yes") 
» y «- ordered(x) 
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>y 

A. [1] Yes No Yes No Yes B. [1] Yes No Yes No Yes 
Levels: Yes No Levels: No Yes 

C. [1] Yes No Yes No Yes D. OJ YNYNY 
Levels: No < Yes Levels: Y N 


C ”) 5， 以 下 命令 会 得 到 哪 种 执行 结果 ? 


> X <- c("Yes", "No", "Yes", "No", "Yes") 
» y «- factor(x) 
» as.numeric(y) 


A[]12121 B.[]21212 
Gnpi322 D.[22112 


( 26. 以 下 命令 会 得 到 哪 种 执行 结果 ? 
> X <- C("A", "B", "C", "D", "A", "A*) 
» y «- factor(x) 
> nlevels(y) 


A. [1]3 B.[1]4 C. [1] 5 
C ”) 7， 以 下 命令 会 得 到 哪 种 执行 结果 ? 

»X« cC, "8", "C', "D*, "A", "A 

» y «- factor(x) 

» length(y) 

A. [1]3 B.[1]4 C. [1]5 
( 28 以 下 命令 会 得 到 哪 种 执行 结果 ? 

SK cA", "B^, "C^, “Ds "Ar "A*) 

> y <- factor(x, levels = c("D", "C", "B", "A"), 

+ ordered = TRUE) 

> which(y >= "A") 


A.[1]2 3 4 B.[1]1 1 1 C.[1]1 5 6 


三 、 多 选 题 
C  ) 1， 有 一 个 如 下 执行 结果 。 


[11ABCDAA 
Levels: ABC D 


下 列 哪 些 命令 可 以 得 到 上 述 执行 结果 ? (选择 3 项 ) 


D.[1]6 


D.[1]6 


D.[1]2 4 6 
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A. *X«- cCAS, "B", "C", "DU, "AS, AS) 
> factor(x) 
B.» x«- cA", "B", "C", "D', "A", "A*) 
» as.factor(x) 
C. saa QUAS, TB", "OS, "ON, "ASI SAM) 
» ordered(x) 
Di»x«- eA, "B, "C^, "Dhu. "AUS TAT) 
> factor(x, ordered = is.ordered(x)) 
E. » x «- c("A", "B", "C", "D", "A", "A") 
> factor(x, levels = c("D", "C", "B", "A")) 





四 、 实 际 操作 题 ( 如 果 题 目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 


E 
2. 
3. 


将 第 4 章 第 1 题 a 题 目 ， 家 人 的 血型 向 量 ， 转 成 因子 。 

重复 前 一 题 ， 建 立 因子 时 ， 使 用 levels 将 血型 类 别 顺序 设 为 “A”“AB”“B”“0”。 
统计 (或 自行 假设 ) 班 上 20 人 的 考试 成 绩 ， 计 分 方式 如 下 所 示 。 

A.90 分 ( 含 ) 以 上 

B. 80~ 89 

C.70~79 

D.60~69 

F. 60 以 下 

请 将 上 述 数 据 建 为 有 序 因子 ， 排 列 方式 为 A> B > C > D >F， 并 按 下 列 要 求 输出 结果 。 
C1) 请 列 出 成 绩 为 B 以 上 的 人 。 

(2) 请 列 出 成 绩 为 F 的 人 。 

(3) 请 使 用 table O 函数 了 解 个 成 绩 的 分 布 。 


数据 框 Data Frame 
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至 今 所 介绍 的 资料 ， 不 论 是 向 量 (Vector) 或 矩阵 (Matrix) 或 三 维 数组 ( Array )， 所 探讨 的 
皆 是 相同 类 型 的 数据 。 但 在 真实 的 世界 里 ,我 们 需要 处 理 不 同类 型 的 资料 ， 例 如 ， 在 公司 行 号 、 
薪资 是 整数 ， 姓 名 是 字符 串 ， 地 址 或 电话 号 码 等 ， 这 些 数据 是 无 法 放 和 人 相同 矩阵 的 。 

R 语言 提供 了 一 个 新 的 数据 结构 ， 称 数据 框 (Data Frame )， 可 以 解决 这 类 问题 ， 这 也 是 本 
章 的 重点 。 


认识 数据 框 


数据 框 ( Data Frame ) 是 由 一 系列 的 列 向 量 ( Column Vector ) 所 组 成 的 ， 我 们 可 以 将 它 视 为 矩 
阵 的 扩充 。 对 单独 的 向 量 与 矩阵 而 言 ， 它 们 的 元 素 必须 相同 ， 但 对 数据 框 而 言 ， 不 同 列 的 向 量 的 
元 素 类 别 可 以 不 同 。 数 据 框 还 有 其 他 以 下 特色 。 

1) AJI (Column) 皆 有 一 个 名 称 ， 如 果 没 有 设置 ，R 语言 默认 该 列 的 名 称 是 V1、V2 … 等 ， 

可 使 用 names () 和 colnames () 函数 查询 或 设置 数据 框 列 (Column ) 的 名 称 。 

2) 每 一 个 行 (Row) 也 要 有 一 个 名 称 ，R 语言 默认 该 行 名 称 是 “1”“2”……… 等 ， 相 当 于 数字 编 

号 ,但 这 些 数 字 是 字符 串 类 型 ， 可 使 用 row.names () 函数 查询 或 设 定 行 ( Row ) 的 名 称 。 





7-1-1 建立 第 一 个 数据 框 


假设 有 如 下 3 个 向 量 。 

> mit.Name «- c("Kevin", "Peter", "Frank", "Maggie") 
> mit.Gender <- c("M", "M", "M", "F") 

» mit.Height «- c(170, 175, 165, 168) 

> 


O mit.Name : 是 姓名 的 字符 串 向 量 。 
口 mit.Gender : 是 性 别 的 字符 向 量 。 
口 mit.Height : 是 身高 的 数值 向 量 。 
data.frame () 函数 ， 可 将 上 述 3 个 向 量 组 成 数据 框 。 
实例 ch7_1 : 建立 第 1 个 数据 框 mitinfo， 同 时 验证 结果 的 实例 ， 如 下 所 示 。 


> mit.info «- data.frame(mit.Name, mit.Gender, mit.Height) 


» mit.info 

mit.Name mit.Gender mit.Height 
1 Kevin M 170 
2 Peter M 175 
3 Frank M 165 
4 Maggie F 168 
> 


从 上 述 执行 结果 可 知 ， 已 经 成 功 建立 mitinfo 数据 框 了 。 
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7-1-2 验证 与 设置 数据 框 的 列 名 和 行 名 


尽管 从 实例 ch7_1 的 执行 结果 ， 已 经 可 以 看 出 向 量 名 称 将 是 数据 框 的 列 名 ， 不 过 这 里 笔者 还 
是 执行 验证 。 先 前 笔者 有 说 过 ， 可 使 用 names () 和 colnames () 查询 或 设 定数 据 框 列 (Column ) 
的 名 称 ， 可 参考 下 列 实例 。 
实例 ch7_2 : 分 别 使 用 names () 和 colnames () 函数 查询 mitinfo 数据 框 的 列 名 。 





> names(mit.info) 

[1] “mit.Name” “mit.Gender” "mit.Height" 
> colnames(mit.info) 

[1] "mit.Name" “mit.Gender” "mit.Height" 
> 


实例 ch7_3 : 使 用 row.names () 函数 查询 行 ( Row ) 的 名 称 。 


> row.names(mit.info) 
[gu v". 


> 


实例 ch7_4 : 将 mit.info 数据 框 的 第 1 列 的 列 名 改 成 “m.Name”。 


> names(mit.info)[1] «- "m.Name" 

» names(mit.info) 

[1] "m.Name" "mit.Gender" "mit.Height" 
> 


从 上 述 执行 结果 可 以 看 到 已 经 成 功 修改 数据 框 的 第 一 个 列 名 了 ， 当 然 也 可 以 一 次 修改 所 有 的 
列 名 ， 可 参考 下 列 实例 。 
实例 ch7_5 : 一 次 更 改 所 有 mit.info ZEE. PU, "Name" "Gender" "Height". 


> names(mit.info) «- c("Name", "Gender", "Height") 
» names(mit.info) 
[1] "Name" "Gender" "Height" 


» mit.info 

Name Gender Height 
1 Kevin M 170 
2 Peter M 175 
3 Frank M 165 
4 Maggie F 168 


> 


认识 数据 框 的 结构 


如 果 使 用 str O 函数 ， 了 解数 据 框 的 结构 时 ， 会 发 现 一 个 问题 ， 如 下 所 示 。 
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> str(mit.info) 

'data.frame': 4 obs. of 3 variables: 

$ Name 4 Hasan ad 4 levels "Frank","Kevin",..: 2413 
$ Gender: |Factorjw/ 2 levels "F","M':2221 

$ Height: num| 170 175 165 168 
> 


因子 
我 们 在 7-1-1 节 建立 数据 框 时 ，mitName ( 现 已 改 成 Name) 和 mit.Gender ( 现 已 改 成 
Gender) 分 明 是 字符 串 向 量 ， 但 在 建立 数据 框 时 却 成 了 因子 变量 。 其 实 这 是 R 语言 的 默认 情况 ， 
如 果 不 想 要 如 此 ， 那 么 在 使 用 data.frame O 函数 建立 数据 框 时 ， 可 以 增加 参数 “stringsAsFactors = 
FALSE". 


A 有 时 候 在 数据 框 内 的 某 个 字段 是 因子 变量 时 ， 对 建立 汇总 数据 报表 是 有 帮助 的 ， 相 关 知 识 将 
2u 在 第 15 章 和 第 16 章 予 以 说 明 。 


实例 ch7 6 : 重新 建立 数据 框 ， 使 其 仍 保持 是 字符 串 数据 类 别 ， 同 时 验证 原 字符 串 向 量 。 


> mit.Newinfo «- data.frame(mit.Name, mit.Gender, mit.Height, stringsAsFacto 
rS = FALSE) 

» str(mit.Newinfo) 

'data.frame': 4 obs. of 3 variables: 

$ mit.Name : chr "Kevin" "Peter" "Frank" "Maggie" 

$ mit.Gender: chr "M" "M" "M" "F" 

$ mit.Height: num 170 175 165 168 

> 


由 上 述 执行 结果 可 以 看 到 ，mit.Name 和 mit.Gender 的 数据 类 别 仍 是 字符 串 (“chr” ). 


取得 数据 框 的 内 容 


7-3-1 一 般 取 得 


若 想 要 取得 数据 框 的 值 ， 可 以 将 数据 框 当 作 和 矩阵 处 理 。 
实例 ch7_7 : 列 出 所 有 学 生 姓 名 。 
> mit.Newinfo[ , "mit.Name"] 


[1] "Kevin" "Peter" "Frank" "Maggie" 
> 


实例 ch7_8 : 列 出 2 号 学 生 的 资料 。 
> mit.Newinfo[ 2, ] 


mit.Name mit.Gender mit.Height 
z Peter M 175 
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实例 ch7_9 : 列 出 3 号 学 生 的 姓名 。 


> mit.Newinfo[ 3, "mit.Name"] 
[1] "Frank" 


> 


在 上 述 实例 ch7_9 中 ,我 们 在 列 名 称 中 是 直接 使 用 数据 框 为 该 列 所 建 的 列 名 。 由 上 述 实 例 可 


All, mit.Name 是 数据 框 的 第 一 列 ， 我 们 也 可 以 在 索引 中 直接 指明 是 读 第 几 列 的 数据 。 
实例 ch7_10 : 以 直接 指明 是 读 第 几 列 的 方式 重新 列 出 3 号 学 生 的 姓名 。 

> mit.Newinfo[ 3, 1] 

[1] "Frank" 


7-3-2 ”特殊 字符 $ 
再 查看 一 次 mit.Newinfo 数据 框 ， 如 下 所 示 。 


> str(mit.Newinfo) 


.frame': 4 obs. of 3 variables: 
mit.Name : chr "Kevin" "Peter" "Frank" "Maggie" 


Imit.Gender: chr "M" "M" "M" "F" 
mit.Height: num 170 175 165 168 
> 


可 以 看 到 每 个 列 名 前 面 漠 有 “$ ”符号 ， 这 个 符号 主要 是 为 了 方便 读 取 数据 框 的 列 名 内 的 数据 。 


实例 ch7_11 : 列 出 所 有 学 生 姓名 。 


> mit.Newinfo$mit.Name 
[1] "Kevin" "Peter" "Frank" "Maggie" 
- 


当然 我 们 也 可 以 用 索引 方式 取得 所 有 学 生 姓 名 ， 如 下 所 示 。 


> mit.Newinfo[ , 1] 

[1] "Kevin" "Peter" "Frank" "Maggie" 
» mit.Newinfo[ , "mit.Name"] 

[1] "Kevin" "Peter" "Frank" "Maggie" 
> 


任何 一 个 程序 设计 师 一 定 有 许多 工作 ， 所 设计 的 程序 ， 时 间 一 久 可 能 早 就 忘 了 ， 哪 一 个 对 象 
有 哪些 字段 。 所 以 由 程序 设计 师 的 观点 ,使 用 实例 ch7_11 的 方式 ， 可 让 程序 未 来 更 容易 阅读 。 


7-3-3 ”再 看 取得 的 数据 


对 于 对 象 X 而 言 ， 当 使 用 X , n ] 时 ,是 取得 对 象 X 的 第 n 列 ， 所 获得 的 结果 是 一 个 向 量 ， 本 
节 之 前 的 所 有 实例 丝 是 如 此 。 如 果 使 用 X[n] 方 式 可 取得 X 对 象 的 第 n 列 ， 则 所 返回 的 是 数据 框 。 


如 果 使 用 X[-n] 方式， 则 表示 取得 X 对 象 的 非 第 n 列 ， 所 返回 的 数据 也 是 数据 框 。 
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实例 ch7 12 : 列 出 所 有 学 生 姓 名 ， 但 此 次 所 返回 的 是 数据 框 ， 并 列 出 所 有 除了 学 生 姓 名 以 外 的 数 
据 框 数据 ， 下 列 是 列 出 所 有 学 生 姓名 的 实例 。 


> mit.Newinfo[1] 
mit.Name 

1 Kevin 

2 Peter 

3 Frank 

4 Maggie 

» str(mit.Newinfo[1]) 

'data.frame': 4 obs. of 1 variable: 

$ mit.Name: chr "Kevin" "Peter" "Frank" "Maggie" 

>. 


下 列 是 列 出 除了 学 生 姓 名 以 外 的 数据 框 数据 的 实例 。 


> mit.Newinfo[-1] 
mit.Gender mit.Height 








1 M 170 
2 M 175 
3 M 165 
4 F 168 


» str(mit.Newinfo[-1]) 

'data.frame': 4 obs. of 2 variables: 
$ mit.Gender: chr "M" "M" "M" "F" 

$ mit.Height: num 170 175 165 168 

> 


在 阅读 下 一 节 前 ， 先 将 mit.Newinfo 的 列 名 修改 为 “Name”“Gender” "Height". 


> names(mit.Newinfo) «- c("Name", "Gender", "Height") 
» mit.Newinfo 
Name Gender Height 


1 Kevin M 170 
2 Peter M 175 
3 Frank M 165 
4 Maggie F 168 
> 


由 上 述 执行 结果 可 知 列 名 修改 成 功 了 。 


使 用 rbind () 函数 增加 数据 框 的 行 数据 


假设 有 一 位 学 生 “Amy”“F”“161”， 想 加 入 数据 框 ， 可 参考 下 列 实例 。 
实例 ch7_13 : 将 数据 “Amy”“F”“161”， 加 入 mit.Newinfo 数据 框 。 





> Mit.Newinfo «- rbind(mit.Newinfo, c("Amy", "F", 161)) 
» Mit.Newinfo 
Name Gender Height 
1 Kevin M 170 
2 Peter M 175 


据 ， 
ME, 
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3 Frank M 165 
4 Maggie F 168 
5 Amy F 161 
> 


由 上 述 执行 结果 可 以 看 到 Mit.Newinfo 已 经 增加 Amy 的 数据 了 。 如 果 想 要 一 次 增加 多 笔 数 
例如 ,，“Tony”“M”“171”“Julia”“F”*“163”， 我 们 可 以 先 将 这 多 条 行 数据 组 合成 一 个 数据 
然后 再 使 用 rbind O 函数 将 两 个 数据 框 组 合 即 可 ， 可 参考 下 列 实例 。 


实例 ch7 14 : 使 用 rbind O 函数 实现 两 个 数据 框 的 组 合 ， 执 行 结果 将 增加 编号 6 和 7 的 
“Tony”、“M”、“171” 和 “Julia”、“F”、“163” 的 相关 数据 。 


> mit.Newstu <- data.frame(Name = c("Tony", "Julia"), Gender = c("M", "F"), 
Height = c(171, 163)) 335 — NEURE Se AERIS 
» Mit.Newinfo2 «- rbind(Mit.Newinfo, mit.Newstu) 
» Mit.Newinfo2 
Name Gender Height 


1 Kevin M 170 
2 Peter M 175 
3 Frank M 165 
4 Maggie F 168 
5 Amy F 161 
6 Tony M 171 
7 Julia F 163 
> 


上 述 实例 的 第 一 个 指令 是 新 建 数据 框 ， 需 要 特别 留意 的 是 ， 所 建 数据 框 的 列 名 必须 与 想 要 合 


并 组 合 的 数据 框 相 同 ， 然 后 使 用 mbind O 函数 将 两 个 数据 框 组 合 ， 即 可 得 到 想 要 的 结果 。 当 然 我 
们 也 可 以 直接 使 用 索引 值 增加 数据 框 的 行 数据 。 
实例 ch7_15 : 使 用 索引 值 增加 数据 框 的 行 数据 ， 执 行 结 果 将 增加 编号 8 和 9 KY “Ivan”, "M", 


“q 


81" FI “Ira”, "M", "166" [poems 


> Mit.Newinfo2[c("8", "9"), J] <- c("Ivan", "Ira", "M", "M", 181, 166 ) 
> Mit.Newinfo2 
Name Gender Height 


1 Kevin M 170 
2 Peter M 175 
3 Frank M 165 
4 Maggie F 168 
5 Amy F 161 
6 Tony M 17 
7 Julia F 163 
8 Ivan M 181 
9 Ira M 166 
> 


使 用 cbind () 函数 增加 数据 框 的 列 数据 


在 数据 处 理 过 程 中 ,一 定 会 碰 上 想 将 新 的 字段 数据 加 到 数据 框 内 的 情况 ， 这 也 是 本 节 要 讨论 
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的 主题 。 


7-5-1 使 用 $ 符号 


本 节 为 简便 将 重新 使 用 mit.Newinfo 对 象 ， 如 下 所 示 。 
Name Gender Height 





1 Kevin M i70 
2 Peter M 175 
3 Frank M 165 
4 Maggie F 168 


假设 想 增加 Weight 列 数据 ， 数 据 分 别 是 65, 71, 58, 55。 有 好 几 个 方法 可 以 实现 增加 列 数据 ， 
本 小 节 将 介绍 如 何 使 用 $ 符 号 ， 一 次 加 一 条 列 数据 。 
实例 ch7 16 : 使 用 $ 符号 ， 为 mit.Newinfo 对 象 增 加 Weight 列 数据 。 


> Weight «- c(65, 71, 58, 55) 
> mit.Newinfo$Weight <- Weight 
» mit.Newinfo 

Name Gender Height Weight 


1 Kevin M 170 65 
2 Peter M 175 71 
3 Frank M 165 58 
4 Maggie F 168 55 


需要 特别 留意 的 是 “mit.Newinfo $ Weight <- Weight” 指 令 ,“$ ”符号 右边 的 Weight 是 数据 
框 将 要 新 增 的 列 名 ， 也 可 以 使 用 其 他 名 称 。 至 于 最 右边 的 “Weight” 则 是 Weight 向 量 的 元 素 值 。 


7-5-2 一 次 加 多 个 列 数据 


碰 上 需 一 次 加 多 条 列 数据 的 情况 ， 最 简单 的 方法 是 为 欲 增加 的 列 数据 建立 数据 框 ， 最 后 青 使 
用 cbind () 函数 ， 将 两 个 数据 框 组 合 。 
实例 ch7_17 : 为 mit.Newinfo 对 象 增 加 两 个 列 数据 ，Age 列 的 数据 分 别 是 19, 20, 20, 19, Score 列 
的 数据 分 别 是 88, 91, 75. 80。 


> Age «- c(19, 20, 20, 19) 
» Score «- c(88, 91, 75, 80) 
» mit.addinfo «- data.frame(Age, Score) 
» mit.Finalinfo «- cbind(mit.Newinfo, mit.addinfo) 
» mit.Finalinfo 
Name Gender Height Weight Age Score 


1 Kevin M 170 65 19 88 
2 Peter M 175 71 20 91 
3 Frank M 165 58 20 75 
4 Maggie F 168 55 19 80 


> 
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上 述 程序 的 第 3 行 是 将 新 增 的 Age 和 Score 列 数据 组 成 数据 框 ， 第 4 行 则 是 将 原先 数据 框 和 





dr 


数据 框 组 合成 最 后 结果 的 数据 框 。 


再 谈 转 置 函数 t () 


请 参考 下 列 在 实例 ch5_13 中 使 用 rbind O 函数 所 建 的 矩阵 baskets.NBA2016.Team。 


> baskets.NBA2016.Team 

1st 2nd 3rd 4th 5th 6th 
Lin 7 8 6119 22 
Jordon 12 8 9 15 7 12 
> 


在 本 章 一 开始 ， 笔 者 介绍 了 数据 框 是 由 一 系列 的 列 向 量 所 组 成 的 


象 转 成 数据 框 ， 那 么 可 依照 下 列 2 个 步骤 进行 操作 。 


1) 
2) 


使 用 ! O 函数 ， 将 由 行 向 量 组 成 的 矩阵 转 成 列 向 量 格式 。 
正式 转 成 数据 框 。 


实例 ch7_18 : 将 baskets.NBA2016.Team 矩阵 对 象 ， 转 成 数据 框 对 象 。 


> baskets.TNBA2016 <- t(baskets.NBA2016.Team)  ” # 转 置 处 班 
> baskets.NBA.dfTeam <- data.frame(baskets.TNBA2016) 
> baskets.NBA.dfTeam 


Lin Jordon 
1st 7 12 
znd 8 8 
3rd 6 9 
4th 11 15 
5th 9 7 
6th 12 12 


> 


经 以 上 转换 后 ， 以 后 就 可 参照 先前 章节 执行 数据 框 的 操作 了 。 


。 如 果 我 们 想 将 上 述 矩 阵 对 
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本 章 习 题 
一 、 判 断 题 
C. 2 1 数据 框 (Data Frame ) 是 由 一 系列 的 列 向 量 ( Column Vector) 所 组 成 的 ， 我 们 可 以 将 
它 视 为 矩阵 的 扩充 。 


( )2. colnames () 是 唯一 一 个 可 查询 和 取得 数据 框 ( Data Frame ) 的 函数 。 
(23. 假设 x.df 是 一 个 数据 框 ( Data Frame )， 下 列 两 个 命令 的 执行 结果 相同 。 
> names(x.df) 
或 
> colnames(x.df) 
( )4. "HE (Data Frame) 与 矩阵 ( Matrix ) 的 差别 之 一 在 于 数据 框 中 每 一 列 ( Column ) 
的 长 度 可 以 不 相等 ， 而 矩阵 中 每 一 列 ( Column ) 的 长 度 一 定 要 相等 。 
( ”) 5， 有 如 下 系列 命令 。 
> x.name «- c("John", "Mary") 
> X.Sex <- c("M", "F") 
» x.weight «- c(70, 50) 


» x.df «- data.frame(x.name, x.sex, x.weight) 
» x.df[, 1] 


执行 后 可 以 得 到 下 列 结果 。 


[1] John Mary 
Levels: John Mary 


( 26. FAST. 
» x.name «- c("John", "Mary") 
> X.sex <- c("M", "F") 
» x.weight «- c(70, 50) 
» x.df «- data.frame(x.name, x.sex, x.weight, stringsAsFactors - FALSE) 
» x.df[2, 1] 


执行 后 可 以 得 到 下 列 结果 。 


[1] Mary 
Levels: John Mary 


(27. ebind O 函数 ， 可 将 两 个 数据 框 组 合 。 
二 、 单 选 题 


( O) 下 列 哪 一 类 型 的 数据 结构 可 允许 有 不 同 数据 型 态 ? 
A. 向 量 ( Vector ) B. 矩阵 ( Matrix ) 


13. 


) 3. 


) 4. 


35. 


CHAPTER 07 数据 框 Data Frame 


C. 数 组 ( Array ) D. 数据 框 ( Data Frame ) 
由 以 下 命令 可 以 判断 ，mtears 对 象 是 什么 数据 类 型 ? 


> str(mtcars) 
'data.frame': 32 obs. of 11 variables: 


$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 
$ cyl : num 6646868446... 

$ disp: num 160 160 108 258 360 ... 

$ hp : num 110 110 93 110 175 105 245 62 95 123 ... 

$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3. 
92 .。。 

$ wt num 2.62 2.88 2.32 3.21 3.44 ... 

$ qsec: num 16.5 17 18.6 19.4 17 ... 

$vs :num 0011010111... 

$am :num 11100000900... 

$ gear: num 4443333444 ... 

$ carb: num 4411214224 ... 

A. 向 量 ( Vector ) B. 矩阵 ( Matrix ) 

C. 因子 C Factor ) D. 数据 框 ( Data Frame ) 


由 以 下 命令 可 以 判断 ，mtcars 对 象 有 多 少 列 ? 


> str(mtcars) 
'data.frame': 32 obs. of 11 variables: 


A. 10 B. 11 ci D. 13 
以 下 命令 会 得 到 哪 种 执行 结果 ? 


> x.name «- c("John", "Mary") 
> X.sex <- c("M", "F") 
» x.weight «- c(70, 50) 
> X.df «- data.frame(x.name, x.sex, x.weight, stringsAsFactors = FALSE) 
» x.df[1, 1] 
A. [1] "Mary" B. [1] "John" 
C. [1] Mary D. [1] John 
Levels: John Mary Levels: John Mary 


以 下 命令 会 得 到 哪 种 执行 结果 ? 


> x.name «- c("John", "Mary") 


> X.sex <- c("M", "F") 
» x.weight «- c(70, 50) 
» X.df «- data.frame(x.name, x.sex, x.weight, stringsAsFactors - FALSE) 
» names(x.df) «- c("name", "sex", "weight") 
» x.df 
A. name sex weight B.  x.name x.sex x.weight 
1John M 70 1 John M 70 
2 Mary F 50 2 Mary F 50 
C. [1] Mary D. [1] John 
Levels: John Mary Levels: John Mary 
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以 下 命令 执行 后 ， 可 以 获得 多 少 个 行 数据 ? 


> x.name «- c("John", "Mary") 

> x.sex <- c("M", "F") 

> x.weight «- c(70, 50) 

> x.df <- data.frame(x.name, x.sex, x.weight, stringsAsFactors = FALSE) 
» y.df «- rbind(x.df, c("Frankie", "M", 66)) 


A.1 B.2 6:3 D.4 
以 下 命令 会 得 到 哪 种 执行 结果 ? 


> x.name «- c("John", "Mary") 

> X.Sex <- c("M", "F") 

» x.weight «- c(70, 50) 

> X.df <- data.frame(x.name, x.sex, x.weight) 
» age «- c(23, 20) 

> y.df <- data.frame(age) 

» new.df «- cbind(x.df, y.df) 

» new.df 


A.  x.name x.sex x.weight B. x.name x.sex x.weight 
1 John M 70 1 John M 70 
2 Mary F 50 2 Mary F 50 

3 


C. x.name x.sex x.weight age D. name sex weight 
1 John M 70 23 1 John M 70 
2 Mary F 50 20 2 Mary F 56 


三 、 多 选 题 


( 
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有 如 下 命令 。 

> A <- cCA'，'B 'A', CAS, 'B') 

> B <- cC'Winter', 'Summer', 'Summer', 'Spring', 'Fall') 
> C <- c(7.4, 6.3, 8.6, 7.2, 8.9) 

» my.df «- data.frame(A, B, C) 


» abc - 1:5 

若 要 将 向 量 abe 加 入 成 为 my.df 的 第 4 列 ， 可 以 用 下 列 哪 些 命令 ? (选择 3 项 ) 
A. my.df ( abe ) <- abe B. my.df $ abc <- abc 

C. my.df[, “abe” ] <- abe D. my.d[ "abc" .] <- abc 


E. my.df[4] <- abc 


四 、 实 际 操作 题 ( 如 果 题目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 


请 参考 实例 ch7_1， 建 立 自己 家 人 的 数据 框 A1， 至 少 5 个 行 数据 ， 并 执行 以 下 操作 。 


(1) 


请 将 列 名 分 别 更 改 为 : name， gender, height. 


(2) 请 为 数据 框 增加 5 个 行 数据 。 
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(3) 请 建立 另 一 个 数据 框 A2， 这 个 数据 框 有 3 个 行 数据 ， 然 后 将 A2 数据 框 接 在 Al 数据 
框 的 下 方 。 


(A) 请 列 出 身高 170cm 以 上 的 数据 。 
请 建立 数据 框 B， 这 个 数据 框 有 两 个 字段 ( 列 数据 )， 分 别 是 weight 和 gender， 然 后 将 数据 框 
B 接 在 数据 框 Al 的 右边 。 


C1) 请 列 出 性 别 为 女性 数据 。 
(2) 请 列 出 性 别 为 男性 ， 同 时 体重 超过 70kg 的 数据 。 
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串 行 ( List ) 是 一 种 具有 很 大 弹性 的 对 象 ， 在 同一 串 行 内 可 以 有 不 同属 性 的 元 素 ， 例 如 ， 
字符 、 字 符 串 或 数值 。 也 可 拥有 不 同 的 对 象 ， 例 如 ， 向 量 ( Vector )、 和 矩阵 ( Matrix )、 因 子 
( Factor )、 数 据 框 (Data Frame ) 或 其 他 串 行 (List ). 





A 研读 至 此 ， 相 信 各 位 可 以 看 到 ， 数 据 框 ( Data Frame) 可 以 视 为 数 个 向 量 所 组 成 的 串 行 
au (List) 对 象 ， 但 是 数据 框 受 限于 各 向 量 长 度 必须 相同 ， 串 行 则 无 此 限制 。 


建立 串 行 


建立 串 行 ( List ) 所 需 的 函数 是 list ()。 其 实 可 以 将 串 行 想 成 是 一 个 大 的 袋子 ， 这 个 袋子 里 面 
装 满 各 式 各 样 的 对 象 ， 接 下 来 ， 将 分 成 几 个 小 节 讲 解 建立 串 行 的 知识 。 


8-1-1 建立 串 行 对 象 一 一 对 象 元 素 不 含 名 称 


在 程序 实例 ch5_39， 我 们 曾经 建立 一 个 baskets.NBA2016.Team 对 象 ， 接 下 来 我 们 将 以 这 个 实 
例 所 建 的 矩阵 为 模板 建立 串 行 。 
实例 ch8_1 : 将 baskets.NBA2016.Team 矩阵 对 象 建立 成 一 个 串 行 ， 此 串 行 内 容 除 了 有 basket. 
NBA2016.Team 对 象 外 ， 还 有 两 个 字符 串 ， 分 别 是 字符 串 “California” 代 表 队 名 ， 字 符 串 “2016- 
2017” 代 表 季 度 。 

> baskets.Cal <- list("California", "2016-2017", baskets.NBA2016.Team) 

» baskets.Cal 


tr] 
[1] "California" 





[[2]] 
[1] "2016-2017" 


[[3]] 
1st 2nd 3rd 4th 5th 6th 
Lin 7 8 611 91 
Jordon 12 8 9 15 7 12 
HERRITAR UAE, HBÁTOLSEREESERKUL Y. PITAR "baskets.Cal", 3t H7 
内 有 3 个 对 象 ,“[[ 了 ”内 的 编号 是 串 行内 对 象 元 素 的 编号 。 由 以 上 执行 结果 可 知 对 象 1 的 内 容 是 
“California”， 对 象 2 是 “2016-2017”， 对 象 3 是 原 矩 阵 baskets.NBA2016.Team 的 内 容 。 


8-1-2 ”建立 串 行 对 象 一 一 对 象 元 素 含 名 称 
建立 串 行 ， 并 且 同 时 为 对 象 元 素 命 名 所 使 用 的 也 是 list O 函数 。 
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实例 ch8_2 : 建立 baskets.NewCal 串 行 ， 在 建立 串 行 时 同时 为 串 行内 的 对 象 元 素 命名 。 


> baskets.NewCal <- list(TeamName = "California", Season = "2016-2017", 
score.Info - baskets.NBA2016.Team) 

> baskets.NewCal 

STeamName 

[1] "California" 


$Season 
[1] "2016-2017" 


$score.Info 
1st 2nd 3rd 4th Sth 6th 
Lin 7 8 611 9 12 


Jordon 12 8 9 15 7 12 


由 上 述 执行 结果 可 知 ，“[[ ”符号 已 经 消失 了 ， 取 而 代 之 的 是 “$” 符 号 接着 对 象 元 素 名 
称 。"$ ”用 法 和 数据 框 (Data Frame ) 类 似 。 其 实 我 们 可 以 将 数据 框 (Data Frame ) 想 成 是 串 行 
(List) 的 一 种 特殊 格式 。 本 章 接 下 来 介绍 的 各 种 串 行 (List) 用 法 ， 也 均 可 以 在 数据 框 (Data 
Frame ) 中 使 用 。 


8-1-3 ”处 理 串 行内 对 象 元 素 的 名 称 


names () 函数 可 以 获得 以 及 修改 串 行内 对 象 元 素 的 名 称 。 
实例 ch8_3 : 分 别 获得 串 行 baskets.Cal 和 baskets.NewCal 内 的 对 象 元 素 的 名 称 。 


> names(baskets.Cal) 

NULL 

> names(baskets .NewCal) 

[1] "TeamName" "Season" "score.Info" 
> 


对 于 baskets.Cal 对 象 而 言 ， 由 于 我 们 在 实例 ch8_1 建立 时 没有 加 名 称 ， 所 以 返回 的 是 
NULL， 而 baskets.NewCal 则 返回 在 实例 ch8_2 所 设 的 名 称 。 


实例 ch8_4 : 将 basket.Cal 的 第 1 个 对 象 命 名 为 “TName”。 


> names(baskets.Cal)[1] «- "TName" 
» baskets.Cal 

STName 

[1] "California" 


S<NA> 
[1] "2016-2017" 


S<NA> 
ist 2nd 3rd 4th 5th 6th 
Lin Ff UN on 92 
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Jordon 12 8 9 15 7 12 


» names(baskets.Cal) 
[1] "TName" NA NA 
> 


在 上 述 实例 中 ， 笔 者 用 了 两 个 方法 验证 结果 。 很 明显 可 以 看 到 对 于 “California” 字 符 串 而 言 
已 经 成 功 建立 “TName” 名 称 了 ， 至 于 尚未 建立 名 称 的 对 象 在 输出 结果 中 则 用 “NA” 表 示 。 


8-1-4 ”获得 串 行 的 对 象 元 素 个 数 
使 用 length O 函数 可 以 获得 串 行 的 元 素 个 数 。 
实例 ch8_5 : 获得 baskets.NewCal 串 行 的 元 素 个 数 。 
> length(baskets.NewCal) 


[1] 3 


> 


获得 串 行内 对 象 的 元 素 内 容 


串 行 内 对 象 元 素 如 果 有 名 称 ， 则 可 以 使 用 “$” 符 号， 取得 对 象 元 素 内 容 。 无 论 串 行内 的 对 
象 元 素 已 有 名 称 或 尚未 有 名 称 ， 均 可 以 使 用 “[[ ]]” 符 号 取得 对 象 元 素 内 容 。 不 论 是 使 用 “$$” 符 
号 或 是 “[[ ”所 传 回 的 均 是 对 象 元 素 本 身 。 

你 也 可 以 参考 8-2-4 15, 使用“[ ,但 所 传 回 的 数据 类 型 是 囊 行 。 


8-2-1 ”使 用 “$ ”符号 取得 串 行 内 对 象 的 元 素 内 容 
“$ ”符号 的 用 法 与 7-3-2 节 数 据 框 的 “$ ”用 法 相同 。 
实例 ch8 6 : 使 用 “$” 符 号 获得 baskets.NewCal 串 行 内 所 有 元 素 的 内 容 。 


> baskets.NewCal$TeamName 

[1] "California" 

» baskets.NewCal$Season 

[1] "2016-2017" 

» baskets.NewCal$score.Info 
1st 2nd 3rd 4th 5th 6th 

Lin 7 86119 2 

Jordon 12 8 9 15 7 12 


> 


实例 ch8_7 :使 用 “$ ”符号 获得 baskets.NewCal PÍTHJICA Score.Info, Jordon 第 4 场 的 进 球 数 。 


> baskets.NewCal$score.Info[2, 4] 
[1] 15 
> 
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实例 ch8_8 : 使 用 ”$ ”符号 获得 baskets.NewCal 串 行内 元 素 Score.Info, Lin 第 5 场 的 进 球 数 。 


> baskets.NewCal$score.Info[1, 5] 
[1] 9 


> 


8-2-2 使 用 “[[]]” 符 号 取得 串 行内 对 象 的 元 素 内 容 
这 种 用 法 也 很 简单 ， 只 要 将 “[[]]” 内 的 数值 想 成 是 索引 值 即 可 。 
实例 ch8_9 : 使 用 “[[]]” 符 号 获得 baskets.Cal 串 行内 所 有 元 素 的 内 容 。 


> baskets.Cal[[1]] 
[1] "California" 
» baskets.Cal[[2]] 
[1] "2016-2017" 
» baskets.Cal[[3]] 

ist 2nd 3rd 4th 5th 6th 
Lin 7 8 611 9 12 
Jordon 12 8 9 15 7 i2 
> 


实例 ch8_10 : 使 用 “[[]]” 符 号 获得 baskets.NewCal 串 行 内 所 有 元 素 的 内 容 。 


> baskets.NewCal[[1]] 
[1] "California" 
> baskets.NewCal[[2]] 
[1] "2016-2017" 
» baskets.NewCal[[3]] 
1st 2nd 3rd 4th 5th 6th 
Lin B8 611 9 2 
Jordon 12 8 9 15 7 1i 


> 


实例 ch8_11 : 使 用 “[[ 了 ”符号 获得 baskets.NewCal 串 行内 元 素 Score.Info, Jordon 第 4 场 的 进 球 数 。 
> baskets.NewCal[[3]][2, 4] 


[1] 15 
> 


实例 ch8 12 : 使 用 “[[]” 符 号 获得 baskets.NewCal 串 行 内 元 素 Score.Info，Lin 第 5 场 的 进 球 数 。 


> baskets.NewCal[[3]][1, 5] 
[1] 9 


> 


8-2-3 RITAR AR APR R ME 


前 一 小 节 在 “[[ ”内 ， 直 接 使 用 数字 当 索 引 ， 如 果 串 行内 的 对 象 元 素 已 有 名 称 ， 也 可 以 用 这 
个 对 象 元 素 名 称 当 索引 。 
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实例 ch8_13 : 使 用 “[[ 了 ”符号 配合 对 象 元 素 名称 当 索引 ， 获 得 baskets.NewCal 串 行 内 所 有 元 素 
的 内 容 。 


> baskets .NewCal[ [ "TeamName"]] 

[1] "California" 

> baskets.NewCal[["Season"]1] 

[1] "2016-2017" 

> baskets.NewCal[["score.Info"]] 
1st 2nd 3rd 4th 5th 6th 

Lin y & 9 11 9.12 

Jordon 12 8 9 15 7 12 

> 


8-2-4 ”使 用 “[]” 符 号 取得 串 行内 对 象 的 元 素 内 容 

使 用 “[]” 也 可 取得 串 行内 对 象 的 元 素 内 容 ， 但 所 传 回 的 数据 类 型 是 串 行 。 使 用 “[ ]” 符 号 
的 另 一 个 特点 是 可 以 使 用 负 索 引 。 
实例 ch8_14 : 使 用 “[]” 符 号 获得 baskets.NewCal 串 行 内 所 有 元 素 的 内 容 





> baskets.NewCal[1] 
STeamName 
[1] "California" 


» baskets.NewCal[2] 
SSeason 
[1] "2016-2017" 


» baskets.NewCal[3] 


$score.Info 
1st 2nd 3rd 4th 5th 6th 
Lin 7 8 611 9 1? 


Jordon 12 8 9 15 7 12 
> 
实例 ch8_15 : 使 用 “[]” 分 别 取得 “1:2” 和 “2:3” 索 引 值 所 对 应 的 元 素 内 容 的 实例 。 
> baskets.NewCal[1:2] 
STeamName 
[1] "California" 


SSeason 
[1] "2016-2017" 


> baskets .NewCal [2:3] 
$Season 
[1] "2016-2017" 


$score.Info 
1st 2nd 3rd 4th 5th 6th 
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需要 留意 的 是 ， 上 述 两 个 实例 所 传 回 的 皆 是 串 行 。 
如 果 索 引 值 是 负数 ， 则 代表 传 回 的 串 行 不 含 负 索 引 所 指 的 对 象 元 素 。 
实例 ch8_16 : 负 索 引 的 应 用 ， 所 传 回 的 串 行将 不 含 第 1 个 对 象 元 素 TeamName。 


> baskets.NewCal[-1] 
$Season 
[1] "2016-2017" 


$score.Info 
1st 2nd 3rd 4th 5th 6th 

Lin 7 8 611 9 2 

Jordon 12 8 9 15 7 1i 

> 

由 上 述 执行 结果 可 知 ,R 语言 在 剔除 TeamName 对 象 元 素 后 , 将 重新 排列 串 行内 对 象 的 顺序 。 
实例 ch8_17 : 以 另 一 种 方式 重新 设计 ch8_16。 这 相当 于 传 回 非 TeamName 索引 值 以 外 的 所 有 
对 象 。 


> baskets.NewCal[names(baskets.NewCal) !- "TeamName"] 
$Season 
[1] "2016-2017" 
$score.Info 
ist 2nd 3rd 4th 5th 6th 
Lin 7 8 6 1.9 2 
Jordon 12 8 9 15 7 12 


> 


BE 编辑 串 行 内 对 象 的 元 素 什 


你 可 以 像 编辑 修改 其 他 对 象 的 方式 ,编辑 修改 串 行 各 个 元 素 的 内 容 。 


8-3-1 修改 串 行 元 素 的 内 容 


我 们 可 以 使 用 “[[ ”和 “$$ ”修改 串 行 元 素 的 内 容 ， 笔 者 将 以 不 同方 法 隶 步 讲解 ， 如 何 修改 
串 行 元 素 的 内 容 。 





R 语言 一 一 迈 向 大 数据 之 路 


实例 ch8_18 : 将 baskets.NewCal 串 行 的 季度 “Season” 改 成 “2017-2018”。 


> baskets.NewCal[[2]] «- "2017-2018" ## 编 辑 修改 
> baskets.NewCal 大 验 证 结果 
STeamName 

[1] "California" 


SSeason 
[1] "2017-2018" 


$score.Info 

1st 2nd 3th 4th 5th 6th 
Lin 7 8 611 9 122 
Jordon 12 8 9 15 7 12 


> 


实例 ch8_19 : 以 不 同方 法 ， 将 baskets.NewCal 串 行 的 季度 “Season” 改 成 “2018-2019”。 


> baskets.NewCal[["Season"]] «- "2018-2019" HARRER 
> baskets .NewCal PEAR 
STeamName 

[1] "California" 


SSeason 
[1] "2018-2019" 


$score.Info 
1st 2nd 3th 4th 5th 6th 


Lin 7 8611 9 12 
Jordon 12 8 9 15 7 12 


> 


实例 ch8_20 : 以 不 同方 法 ， 将 baskets.NewCal 串 行 的 季度 “Season” 改 成 “2019-2020”。 


> baskets.NewCal$Season «- "2019-2020" LE Ld 
» baskets.NewCal fure R 
STeamName 


[1] "California" 


SSeason 
[1] "2019-2020" 


$score.Info 
1st 2nd 3th 4th 5th 6th 
Lin 7" 8. 611 9 2 


Jordon 12 8 9 15 7 12 


此 外 ， 也 可 以 使 用 “[]” 的 方式 实现 串 行 元 素 内 容 的 修改 ， 方 法 可 参考 下 列 实例 。 
实例 ch8_21 : 以 “[]” 方法， 将 baskets.NewCal 串 行 的 季度 “Season” 改 成 “2020-2021"”。 


> baskets.NewCal[2] «- list("2020-2021") d RERO 
» baskets.NewCal Lini d 
STeamName 


[1] "California" 
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$Season 
[1] "2020-2021" 


$score.Info 
1st 2nd 3th 4th 5th 6th 

Lin v sn 9 2 

Jordon 12 8 9 15 7 12 

从 以 上 实例 ， 我 们 已 经 学 会 修改 串 行 单一 元 素 内 容 的 方法 了 ， 如 果 想 一 次 修改 多 个 元 素 的 内 
容 ， 可 参考 下 列 实例 。 
实例 ch8_22 : 一 次 修改 串 行内 两 个 元 素 的 内 容 ， 本 实例 会 将 元 素 1 WUR “Texas”, HICK 2 BUR 
“2016-2017”， 本 实例 会 先 制作 一 份 备份 “copy.baskets.NewCal”"， 然 后 再 修改 此 对 象 的 元 素 1 和 
元 素 2 的 内 容 。 


> copy.baskets.NewCal <- baskets.NewCal 间 先 制作 一 份 备 份 
> copy.baskets.NewCal[1:2] <- list("Texas", "2016-2017") Li ird 
> copy.baskets.NewCal ure R 
STeamName 
[1] "Texas" 
SSeason 
[1] "2016-2017" 
$score.Info 
ist 2nd 3th 4th Sth 6th 
Lin 7 8& 611 9 12 


Jordon 12 8 9 15 7 i2 


8-3-2 ”为 串 行 增加 更 多 元 素 


我 们 可 以 修改 串 行 元 素 的 值 ， 也 可 以 为 串 行 增加 新 元 素 。 此 时 可 以 使 用 索引 ， 也 可 以 使 用 
“$ ”符号 。 
实例 ch8_23 : 为 串 行 baskets.NewCal 对 象 增加 新 的 元 素 ， 元 素 名 称 是 “PlayerName”， 内 容 是 
"Lin" fil “Jordon”. 


> baskets.NewCal[["PlayerName"]] <- c("Lin", "Jordon") VEOGHTC 
» baskets.NewCal TEUER 
STeamName 

[1] "California" 


$Season 
[1] "2020-2021" 


$score.Info 

1st 2nd 3th 4th 5th 6th 
Lin 7 8 611 9 12 
Jordon i2 8 9 15 7 12 
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SPlayerName 
[1] "Lin" "Jordon" 


> 


由 上 述 执行 结果 可 以 看 到 ， 我 们 成 功 地 增加 了 “PlayerName” 元 素 了 。 


实例 ch8_24 : 以 不 同方 式 为 串 行 baskets.NewCal 对 象 增加 新 的 元 素 ， 元 素 名 称 是 “PlayerAge”， 
内 容 是 “25” 和 “45”。 


> baskets.NewCal["PlayerAge"] «- list(c(25, 45)) GC 
» baskets.NewCal 验证 结果 
STeamName 


[1] "California" 


SSeason 
[1] "2020-2021" 


$score.Info 

ist 2nd 3th 4th Sth 6th 
Lin 7 8 611 9 12 
Jordon i2 8 9 15 7 12 


$PlayerName 
[1] "Lin" "Jordon" 


$PlayerAge 
[1] 25 45 


> 


实例 ch8 25 : 以 不 同方 式 为 串 行 baskets.NewCal 对 象 增加 新 的 元 素 ， 元素 名 称 是 “Gender”"， 内 
容 是 “M” 和 “M"。 


> baskets.NewCal$Gender <- cC"M", "M") # 新 增 元 素 
> baskets.NewCal # 验 证 结果 
STeamName 

[1] "California" 


SSeason 
[1] "2020-2021" 
$score.Info 

1st 2nd 3th 4th Sth 6th 
Lin 7 8 611 9 2 
Jordon 12 8 9 15 7 12 


SPlayerName 
[1] "Lin" "Jordon" 


SPlayerAge 
[1] 25 45 


SGender 
[1] "M" "Ww 


> 
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对 于 使 用 “[]” 和 “IJ ”而 言 ， 也 可 以 在 索引 中 直接 以 数值 表示 串 行 新 增 的 第 几 个 元 素 ， 可 
参考 下 列 实例 。 


实例 ch8_26 : 以 数值 当 索 引 重 新 设计 ch8_23， 但 此 次 使 用 对 象 “copy.baskets.NewCal”。 


> copy.baskets.NewCal[[4]] <- cC"Lin"，"Jordon") 
> copy.baskets.NewCal 

STeamName 

[1] "Texas" 


$Season 
[1] "2016-2017" 


$score.Info 

1st 2nd 3rd 4th 5th 6th 
Lin 7 8 611 9 12 
Jordon 12 8 9 15 7 12 


[[4]] 
[1] "Lin" "Jordon" 


当然 使 用 这 种 方式 新 增 串 行 元 素 时 ， 首 先 必 须要 知道 串 行内 有 多 少 元 素 ， 如 果 原 串 行 已 经 有 
4 个 元 素 时 ， 上 述 实例 会 成 为 修改 第 4 个 元 素 的 内 容 ， 而 不 是 新 增 第 4 个 元 素 。 
实例 ch8_27 : 以 数值 当 索引 重新 设计 ch8_24， 但 此 次 使 用 对 象 “copy.baskets.NewCal ”。 

> copy.baskets.NewCal[5] <- list(c(25, 45)) 

> Ccopy.baskets.NewCal 


$TeamName 
[1] "Texas" 


$Season 
[1] "2016-2017" 


$score.Info 

1st 2nd 3rd 4th 5th 6th 
Lin 7 8 611 9 12 
Jordon 12 8 9 15 7 12 
[C4]] 
[1] "Lin" "Jordon" 
[[5]] 
[1] 25 45 


- 


同样 的 ， 使 用 这 种 方式 新 增 串 行 元 素 时 ， 首 先是 必须 知道 串 行 内 有 多 少 个 元 素 ， 如 果 原 串 行 
已 经 有 5 个 元 素 时 ， 上 述 实例 会 成 为 修改 第 5 个 元 素 的 内 容 ， 而 不 是 新 增 第 5 个 元 素 。 
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8-3-3 ”删除 串 行内 的 元 素 


如 果 想 要 删除 串 行内 的 元 素 ， 只 要 将 此 元 素 设 为 NULL 即 可 。 同 时 ， 如 果 所 删除 的 元 素 非 最 
后 一 个 元 素 时 ， 原 先后 面 的 元 素 会 往 前 移 。 例 如 ， 如 果 我 们 删除 第 4 个 元 素 ， 则 删除 后 第 5 个 元 


素 会 变 成 第 4 个 元 素 ， 其 他 依 此 类 推 。 


实例 ch8_28 : 删除 串 行 对 象 “baskets.NewCal” 内 的 第 4 个 元 素 “PlayerName” > 


> baskets.NewCal[[4]] <- NULL 
> baskets .NewCal 

STeamName 

[1] "California" 


$Season 
[1] "2020-2021" 


$score.Info 

1st 2nd 3rd 4th 5th 6th 
Lin 7 8 6 11 9 12 
Jordon i2 8 9 15 7 12 


$PlayerAge 
[1] 25 45 


$Gender 
[1] "M" "M" 


> 


由 上 述 执行 结果 很 明显 可 以 看 到 ， 原 先 第 5 个 元 素 “PlayerAge” 已 经 往 前 移 了 变 成 第 4 个 元 


KT 


实例 ch8_29 : 以 不 同方 法 删除 串 行 对 象 “baskets.NewCal” 内 的 第 4 个 元 素 “PlayerAge”。 


> baskets.NewCal["PlayerAge"] <- NULL 
> baskets.NewCal 

STeamName 

[1] "California" 


$Season 
[1] "2020-2021" 


$score.Info 

1st 2nd 3rd 4th 5th 6th 
Lin £58 en 9» 2 
Jordon 12 8 9 15 7 12 
$Gender 
[1] "M" "M" 


> 


CHAPTER 08 | &f7 List 


实例 ch8. 30 : 以 不 同方 法 删除 串 行 对 象 “baskets.NewCal” 内 的 第 4 个 元 素 “Gender 。 


> baskets.NewCal$Gender «- NULL 
> baskets.NewCal 

STeamName 

[1] "California" 


$Season 
[1] "2020-2021" 


$score.Info 
1st 2nd 3rd 4th 5th 6th 
Lin 7T 8 611 9 2 


Jordon 12 8 9 15 7 12 


> 


EZ tray 


我 们 至 今 已 经 使 用 许多 次 c O 函数 了 ,字符 e 其 实 是 concatenate 的 缩写 ， 也 就 是 合并 ， 如 果 
想 将 两 个 或 多 个 串 行 合并 ， 所 使 用 的 是 ec O 函数 。 在 正式 执行 串 行 合并 操作 前 ， 笔 者 先 建 一 个 虽 
行 对 象 “baskets.NewInfo”， 其 内 容 如 下 所 示 。 


> baskets.NewInfo «- list(Heights = c(192, 199), Ages = c(25, 45)) 
» baskets.NewInfo 

SHeights 

[1] 192 199 


iur 





SAges 
[1] 25 45 


> 


实例 ch8_31 : 执行 “baskets.NewCal” 串 行 和 “baskets.NewInfo” 串 行 合 并 。 


> baskets.Merge <- c(baskets.NewCal, baskets .NewInfo) # 串 列 合并 
> baskets.Merge 

STeamName 

[1] "California" 





$Season 
[1] "2020-2021" 


$score.Info 

1st 2nd 3rd 4th Sth 6th 
Lin 7 8 611 9 i2 
Jordon 12 8 9 15 7 12 
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SHeights 
[1] 192 199 


$Ages 
[1] 25 45 


> 


由 上 述 执行 结果 可 知 ， 我 们 已 经 成 功 执行 串 行 合并 了 。 


EXE] 解析 串 行 的 内 容 结构 


本 章 最 后 笔者 将 要 如 何 解 析 串 行 的 内 容 结构 ， 请 执行 str ( baskets.Merge ) 命令 ， 
列 执行 结 

> Str(baskets.Merge) 

List of 5 


$ TeamName : chr "California" 
$ Season : chr "2020-2021" 
$ score.Info: num [1:2, 1:6] 7 12 8 8 6 9 11 15 9 7. ... 
..- attr(*, "dimnames")-List of 2 
«$ : chr [1:2] "Lin" "Jordon" 
..$ : chr [1:6] "ist" "2nd" "3rd" "4th" ... 
$ Heights : num [1:2] 192 199 
$ Ages : num [1:2] 25 45 
> 


1) 第 1 行 ， 表示 这 是 一 个 串 行 ， 此 串 行 有 5 个 元 素 。 


2) 第 2 行 , 由 “$” 开 头 ， 表示 这 是 第 1 个 元 素 ， 此 元 素 的 名 称 是 “TeamName”， 


BRIR “chr” WJ, WAJE “California” 


可 以 得 到 下 


元 素 是 字符 


3) 第 3 行 , 由 “$” 开 头 , 表示 这 是 第 2 个 元 素 ， 此 元 素 的 名 称 是 “Season”， 元素 是 字符 串 格 


式 “chr” 的 ， 内容 是 “2020-2021”。 


4) 第 4 行 , 由 “$$” 开 头 ， 表示 这 是 第 3 个 元 素 ， 此 元 素 名 称 是 “score.Info”, 元 素 是 数值 格式 


“num” 的 ， 这 是 一 个 2 行 6 列 的 矩阵 。 


5) 第 5 行 ,开头 是 “..”"， 表示 这 项 内 容 属于 上 方 元 素 ， 相 当 于 第 3 个 元 素 ， 其 行 名 称 (Row 
Name ) 和 列 名 称 ( Column Name ) 是 储存 在 “dimnames” 属 性 内 的 ， 同 时 “dimnames” 又 是 


一 个 串 行 ， 内 有 两 个 元 素 。 


6) 第 6 行 和 第 7 行 , 开头 是 “.. ..” 接 “$” 的 缩 排 ， 表 示 这 是 属于 上 方 第 3 个 元 素 的 数组 内 


容 ， 这 两 个 向 量 均 是 字符 串 向 量 ， 长 度 分 别 为 2 和 6。 








7) 第 7 行 , 由 “$” 开 头 ， 表 示 这 是 第 4 个 元 素 ， 此 元 素 的 名 称 是 “Ages”， 元 素 是 数值 格式 








“num” 的 ， 内 容 是 “192” 和 “199”。 
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8) 第 8 行 , 由 “$” 开 头 ， 表 示 这 是 第 5 个 元 素 ， 此 元 素 名 称 是 “Heights"， 元 素 是 数值 格式 
“num” 的 ， 内 容 是 “25” 和 “45”。 
其 实 ，str O 函数 主要 是 可 以 使 你 了 解 对 象 的 结构 ， 由 此 你 可 以 获得 许多 有 用 的 信息 。 在 本 
章 实例 ch8_1 中 我 们 建立 了 “baskets.Cal” 对 象 ， 虽 然后 来 经 过 修改 ， 但 我 们 可 以 再 查看 一 次 这 个 
对 象 的 结构 ， 如 下 所 示 。 


> str(baskets.Cal) 
List of 3 
$ TName: chr "California" 
$NA : chr "2016-2017" 
$ NA : num [1:2, 1:6] 7 128 869 11 15 9 7. ... 
..- attr(*, "dimnames")-List of 2 
..$ : chr [1:2] "Lin" "Jordon" 
«.$ : chr [1:6] "ist" "2nd" "3rd" "4th" ... 
> 


在 上 述 执行 结果 可 以 看 到 baskets.Cal 有 3 个 元 素 ， 其 中 第 2 和 3 个 元 素 的 “多” 符号 右边 是 
NA， 代 表 这 两 个 元 素 没 有 名 称 ， 其 他 内 容 则 不 难 理 解 。 

最 后 笔者 建议 ， 由 于 串 行 可 以 包含 多 种 不 同 数据 格式 的 元 素 ， 这 将 是 您 未 来 迈 向 Big Data 
Engineer 很 重要 的 工具 ， 应 该 彻底 理解 ， 使 用 时 每 个 元 素 都 应 该 给 予 名 称 ， 方 便 未 来 使 用 。 
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本 章 习 题 


一 、 判 断 题 


C. 2 1， 数据 框 ( Data Frame) 与 串 行 ( List ) 的 相同 点 在 于 可 以 同时 储存 数值 数据 与 文字 数据 。 
( 22. 数据 框 (Data Frame) 与 串 行 ( List ) 的 差别 之 一 是 串 行 中 每 一 元 素 的 长 度 可 以 不 相 


等 ， 而 数据 框 中 每 一 列 向 量 的 长 度 需 相等 。 
( 23. 有 如 下 两 个 命令 。 

»a«-c(1,2,3,4) 

> b<- list ( 1,2,3,4) 

执行 命令 后 ，af[H 与 bN 的 返回 值 均 为 1。 
( ”) 4， 有 如 下 两 个 命令 。 


> a <- c(1, 2, 3, 4) 
» b «- list(1, 2, 3, 4) 


上 述 指令 执行 后 ，al[1]] 和 b[[1]] 的 执行 结果 相同 。 


( 5. für. 


» X.list «- list(name - "x.name", gender - "x.sex") 


对 上 述 xlist 对 象 而 言 ， 第 2 个 元 素 的 对 象 名 称 是 “x.sex”， 


x.sex 存 取 此 元 素 的 内 容 。 
( ”) 6， 有 如 下 系列 命令 。 
»A-CCM, 'B', 'A', 'A', '8') 


> B = c('Winter', 'Summer', 'Summer', 'Spring', 'Fall') 


> X.list <- list(A, B) 
» length(x.list) 


上 述 命令 的 执行 结果 如 下 所 示 。 
[1] 10 
( 27. 有 如 下 两 个 命令 。 


> X.list <- list(name = "x.name", gender = "x.sex") 


> x.list[["name"]] 
上 述 命令 执行 时 会 有 错误 产生 。 
( ”) 8， 有 如 下 两 个 指令 。 


> x.list 
Sname 
[1] "x.name" 


Sgender 


[1] "x.sex" 


» x.list$gender «- NULL 


未 来 我 们 可 以 使 用 xlist $ 


上 述 命令 执行 后 ， 串 行 xlist 将 只 剩 下 一 个 元 素 。 


-cbind () 函数 一 般 也 常用 于 串 行 合并 ， 有 如 下 系列 命令 。 


> x.name «- c("John", "Mary") 

> X.sex <- c("M", "F") 

» x.age «- c(20, 23) 

» x.weight «- c(70, 50) 

> X.listl <- list(x.name, x.sex) 

» X.list2 «- list(age, x.weight) 

» X.list3 «- cbind(x.listl, x.list2) 
> x.list3 


上 述 命令 的 执行 结果 如 下 所 示 。 
> x.list3 


CE1] 
[1] "John" "Mary" 


[[2]] 
[1] "M" "F" 


[[3]] 
[1] 23 20 


[[4]] 
[1] 70 50 
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( 0 10. 使 用 “[]” 也 可 取得 串 行 元 素 的 内 容 ， 所 返回 的 数据 类 型 是 串 行 。 


> id «- c(34453, 72456, 87659) 

» name «- c("John", "Mary", "Jenny") 
> gender <- c("M", "F", "F") 

» height «- c(167, 156, 180) 


下 列 哪 一 个 命令 是 有 问题 的 ? 


二 、 单 选 题 
( 201r. 下列 哪 一 类 型 的 数据 结构 使 用 的 弹性 最 大 ? 
A. 向 量 Vector B. 矩阵 Matrix 
C. 数据 框 Data Frame D. 串 行 List 
( ”) 2， 有 如 下 系列 命令 。 
> id «- c(34453, 72456, 87659) 
» name «- c("John", "Mary") 
> lst1 <- list(stud.id = id, stud.name = name) 
若 要 利用 串 行 “lst!” 得 到 字符 串 向 量 “name” 中 的 数据 “John"， 可 以 用 以 下 哪 一 个 命令 ? 
A. lstl $ name[1] B. lstl[. "stud.name" J[1] 
C. Ist1[[stud.name]][1] D. lst1[[2][1] 
( 23. 有 如 下 系列 命令 。 
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A. data.frame ( id, name, gender, height ) 

B. list ( id, name, gender, height ) 

C. matrix ( id, name, gender, height ) 

D. cbind ( id, name, gender, height ) 
(4. 有 如 下 系列 命令 。 


> id «- c(34453, 72456, 87659) 
» X.list «- list("NY", "2020", id) 


下 列 哪 一 个 命令 可 以 取得 串 行 第 2 个 元 素 的 内 容 ? 

A. > x.list[[2]] B. > x.list[[1]] 

C. » x.list$2020 D. » x.list$NY 
)5. 有 一 个 串 行 ， 其 内 容 如 下 所 示 。 


> x.list 
$City 
[1] "NY" 


$Season 
[1] "2020" 


SNumber 
[1] 34453 72456 87659 


下 列 哪 一 个 命令 无 法 取得 xlist 串 行 Number 的 第 2 个 数据 的 内 容 ? 
A. > x.list[[3]][2] B. > x.list$Number[2] 
C. > x.list[["Number"]][2] D. » x.list["Number"][2] 
) 6 有 一 个 串 行 ， 其 内 容 如 下 所 示 。 
> x,list 
$City 
[1] "NY" 
$Season 
[1] "2020" 


SNumber 
[1] 34453 72456 87659 


下 列 哪 一 个 命令 可 以 得 到 下 列 执行 结果 ? 
SSeason 
[1] "2020" 


SNumber 
[1] 34453 72456 87659 


A. > x.list[[c(2:3)]] B. > c(x.list[[2]], x.list[[3]]) 
C. > x.list[[-1]] D. > x.list[-1] 
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( ”) 7.， 有 一 个 串 行 ,其 内 容 如 下 所 示 。 
> x.list 
SCity 
[1] "NY" 
$Season 
[1] "2020" 


$Number 
[1] 34453 72456 87659 


下 列 哪 一 个 命令 无 法 为 串 行 增加 第 4 个 元 素 ? 
A. > X.list[["Country"]] <- "USA" 
B. » x.list["Country"] «- "USA" 
C. » x.list"Country" «- "USA" 
D. » x.list[4] «- "USA" 
( ”) 8， 请 参考 下 列 执行 结 


> str(baskets.Merge) 
List of 5 
$ TeamName : chr "California" 
$ Season : chr "2020-2021" 
$ score.Info: num [1:2, 1:6] 7 12 8 86 9 11 15 97 ... 
..7 attr(*, "dimnames")-List of 2 
«4$ : chr [1:2] "Lin" "Jordon" 
«$ : chr [1:6] "1st" "2nd" "3rd" "4th" ... 
$ Heights : num [1:2] 192 199 
$ Ages : num [1:2] 25 45 


下 列 哪 一 个 叙述 是 错 的 ? 

A. 第 1 行 ， 表 示 这 是 一 个 串 行 ， 此 串 行 有 5 个 元 素 

B. 第 4 行 , 由 “$” 开 头 ， 表 示 这 是 第 3 个 元 素 ， 此 元 素 的 名 称 是 “score.Info”, 元 素 
是 数值 格式 “num” 的 ,这 是 1 个 2 行 4 列 的 矩阵 

C. 第 8 行 , 由 “$” 开 头 ， 表 示 这 是 第 4 个 元 素 ， 此 元 素 的 名 称 是 “Heights"， 元 素 是 
数值 格式 “num” 的 ， 内 容 是 “192” 和 “199” 

D.H 91T, M “S” FA, 表示 这 是 第 5 个 元 素 ， 此 元 素 的 名 称 是 “Ages”， 元 素 是 数 
值 格 式 “num” 的 ， 内 容 是 “25” 和 “45” 


三 、 多 选 题 
C 01r 下列 哪些 对 象 可 以 同时 储存 数值 数据 与 字符 串 数据 ? ( 选择 两 项 ) 
A. 串 行 List B. 矩阵 Matrix C. 数组 Array 


D. 数据 框 Data Frame E. 向 量 Vector 
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四 、 实 际 操作 题 ( 如 果 题 目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 


js 


O e c» GM De pyp 


麻将 是 由 下 列 数 据 组 成 的 。 

(1) 季节 , 春 、 夏 、 秋 、 冬 , 各 VS 

(2) 花色 , 梅 、 兰 、 竹 、 菊 , 各 1 颗 。 

(3) 红 中 、 发 财 、 白 板 ， 各 4 颗 。 

(4) 1 万 到 9 万 各 4 颗 。 

(5) 1 条 到 9 条 各 4 颗 。 

(6) 1 饼 到 9 饼 各 4 颗 。 

请 利用 上 述 信息 建立 串 行 。 

建立 一 个 串 行 A， 这 个 串 行 包 含 以 下 3 个 元 素 ( 可 想 成 在 某 一 年 ， 某 一 城市 认识 的 朋友 )。 
(1) year : 字符 串 。 

(2) city : 字符 串 。 

(3) friend : 5 个 姓名 字符 串 向 量 数据 。 

对 串 行 A 进行 下 列 操作 

(1) 使 用 两 种 方法 列 出 串 行 中 friend 字符 串 向 量 中 第 2 个 人 的 名 字 。 
将 上 述 串 行 的 元 素 分 别 命名 为 year. city 和 friend。 如 果 之 前 建立 时 已 命名 ， 则 可 忽略 此 题 。 
请 分 别 使 用 “[]”、“[[]” 和 “$” 传 回 对 象 的 内 容 ， 并 理解 其 差异 。 
使 用 负 索 引 ， 只 返回 city 和 friend 元 素 的 内 容 。 

将 串 行 的 city 的 字符 串 内 容 改 成 LA。 

为 串 行 增加 新 元 素 ( 可 自行 发 挥 )， 此 元 素 有 3 个 数据 。 

请 自行 建立 串 行 B， 这 个 串 行内 容 可 自行 发 挥 ， 至 少 有 3 个 元 素数 据 。 
将 所 建 的 串 行 A 和 串 行 B 合并 。 





语句 的 分 割 

修改 字符 串 的 大 小 写 

unique () 函数 的 使 用 
字符 串 的 连接 

字符 串 数据 的 排序 

搜索 字符 串 的 内 容 

字符 串 内 容 的 更 改 

正则 表达 式 ( Regular Expression ) 
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在 R 语 言 中 , 字符 串 的 处 理 扮演 着 一 个 非常 重要 的 角色 ， 当 各 位 读 完 前 8 章 ， 相 信 对 有 语言 
已 经 有 了 一 个 基本 认识 ， 当 你 读 完 本 章 ， 相 信 可 以 让 你 的 R 语言 功力 更 上 一 层 。 


语句 的 分 害 


在 使 用 R 语 言 时 ， 常 常 需要 将 一 个 语句 拆 成 单词 作 分 割 ， 此 时 可 以 使 用 susplit O 函数 。 
实例 ch9_1 : 建立 一 个 字符 串 语句 “Hello R World”， 建 好 后 以 空格 为 界 ， 将 此 段 语句 分 割 成 单词 。 


> x <- c("Hello R World") 
»-x 





[1] "Hello R World" 

> strsplit(x, " ") 水 将 语句 拆 成 单词 ， 以 空格 为 界 
cE] 

[1] "Hello" "R" "World" 


由 上 述 执行 结果 可 以 知道 strsplit O 函数 的 返回 值 是 一 个 串 行 ( List )， 此 串 行 只 有 一 个 元 素 ， 
这 个 元 素 是 一 个 字符 串 向 量 (C Vector ) 
实例 ch9_2 : 延续 前 一 个 实例 ， 使 用 strsplit O 函数 将 一 个 语句 拆 成 单词 ， 同 时 存 人 向 量 xVector 内 。 
> xVector <- strsplit(x, " “JCJ 
> xVector 


[1] "Hello" "R" "World" 
> 


QA enueesmxas 


toupper () : 这 个 函数 可 以 将 字符 串 改 成 大 写 。 
tolower () : 这 个 函数 可 以 将 字符 串 改 成 小 写 。 
实例 ch9_3 : 将 实例 ch9_2 所 建 的 xVector 字符 串 改 成 全 大 写 。 


> XVector # 检 查 字符 串 内 容 
[1] "Hello" "R" "World" 

» toupper(xVector) 

[1] "HELLO" "R" "WORLD" 

> 


实例 ch9_4 : 将 实例 ch9_2 所 建 的 xVector 字符 串 改 成 全 小 写 。 





> xVector 全 检查 字符 串 内 容 
[1] "Hello" "R" "World" 

» tolower(xVector) 

[1] "hello" "r" "world" 

> 
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EXE] unique O 函数 的 使 用 


这 个 函数 的 作用 主要 是 让 向 量 内 容 没有 重复 地 出 现 。 在 以 字符 串 作 实 例 前 ， 笔 者 先 以 数值 数 
据 为 例子 说 明 。 在 之 前 章节 中 ,笔者 曾 介绍 过 一 个 数值 向 量 对 象 ， 如 下 所 示 。 


> baskets .NBA2016. Jordon 
[1]12 8 915 712 
> 


很 明显 此 向 量 对 象 的 元 素 值 “12” 出 现 2 次 ，unique O 函数 可 以 让 所 有 元 素 内 容 不 重复 出 现 。 
实例 ch9_5 : 使 baskets.NBA2016.Jordon 内 的 数值 数据 不 重复 出 现 。 


> unique(baskets.NBA2016. Jordon) 
[1]12 8 915 7 
> 


从 上 述 执行 结果 可 以 得 到 ， 原 来 元 素 值 “12” 出 现 2 次 ， 现 在 已 经 不 重复 出 现 了 。 其 实 R 语 
言 程序 设计 师 在 处 理 字符 串 问题 时 ， 偶 尔 也 会 有 处 理 字符 串 向 量 内 有 单词 重复 的 问题 ， 此 时 也 可 
以 用 这 个 函数 处 理 。 下 列 是 一 个 语句 ， 当 建成 字符 串 向 量 后 ， 有 单词 “coffee” 重 复出 现 。 

> coffee.Words <- "Coffee produced using the drying method is known as natur 


al coffee" 
> 


实例 ch9_6 : 将 “coffee.Words” 字 符 串 语句 对 象 先 分 成 个 别 单词 ， 再 将 重复 的 单词 处 理 成 只 出 现 
一 次 。 因 为 在 这 个 例子 中 “Coffee” 和 “coffee” 会 被 视 为 不 同 字 ， 所 以 需 先 将 此 句子 处 理 成 全 小 
写 ， 再 使 用 unique O 函数 青 将 重复 的 单词 处 理 成 只 出 现 一 次 。 


> coffee.NewWords <- strsplit(coffee.Words, " ")[[1]] ## 业 句子 拆 成 单字 

> unique(tolower(coffee.NeWWords))  ”# 先 转 成 小 写 ， 再 执行 元 素 唯 一 化 

[1] "coffee" "produced" "using" "the" "drying" "method" "is" 
[8] "known" "as" "natural" 

> 


由 上 述 执行 结果 可 以 看 到 ,“coffee” 字 符 串 只 出 现 一 次 。 


字符 串 的 连接 


学 会 了 如 何 将 语句 拆 成 各 个 字符 串 或 称 单 词 后 ， 接 着 本 节 会 讲解 如 何 将 各 个 字符 串 或 单词 连 
接 成 语句 ， 此 时 会 用 到 pase O 函数 。 


9—4-1 使 用 paste O 函数 常见 的 失败 实例 1 


实例 ch9_7 : 字符 串 连 接 失败 的 实例 1。 
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> coffee.faill «- paste(c("Boiling", "coffee", "brind", "out", "a", "bitterl 
y", "taste")) 

» coffee.faill 

[1] "Boiling" "coffee"  "brind" "out" "a" "bitterly" 

[7] "taste" 

> 


EEH paste O 函数 之 所 以 失败 ， 最 主要 的 原因 是 paste () 函数 内 有 cO. 函数 ， 因 为 字符 
串 经 过 e O 函数 处 理 后 就 会 形成 一 个 字符 串 向 量 。 


9-4-2 ”使 用 paste O 函数 常见 的 失败 实例 2 


实例 ch9_8 : 字符 串 连接 失败 的 实例 2。 
> # 建 立 字符 捉 向 量 
> coffee.str «- c("Boiling", "coffee", "brings", "out", "a", "bitterly", "taste") 
> paste(coffee.str) # 执行 字符 串 连 接 但 失败 实例 2 
[1] "Boiling" "coffee" "brings" "out" "a" "bitterly" "taste" 
> 


上 述 实例 失败 的 原因 和 实例 ch9_7 相同 。 


9-4-3 ”字符 串 的 成 功 连 接 与 collapse 参数 


若是 想 用 paste O 函数 成 功 将 字符 串 向 量 内 的 字符 串 连 接 ， 须 加 上 collapse 参数 。 假 设 字符 
串 是 使 用 空白 连接 ， 则 在 paste O 函数 内 加 上 collapse =“” 即 可 。 
实例 ch9_9 : 使 用 paste O 函数 搭配 collapse 参数 ， 将 字符 串 连 接 。 


> paste(coffee.str, collapse = " ") 
[1] "Boiling coffee brings out a bitterly taste" 
> 


由 上 述 执行 结果 可 以 看 到 ， 我 们 成 功 地 将 字符 串 依 照 本 意 连 接 了 。 在 实例 ch9_9 内 ， 如 果 将 
参数 设 定 成 “collapse = NULL” ,会 有 何 结 果 呢 ?可 参考 下 列 实例 。 
实例 ch9_10 : 重新 设计 实例 ch9_9， 将 collapse 参数 设 为 NULL。 


> paste(coffee.str, collapse = NULL) 

[1] "Boiling" "coffee" "brings" "out" "a" "bitterly" 
[7] "taste" 

> 


由 上 述 执行 结果 可 知 ， 将 collapse 参数 设 为 NULL， 与 不 加 上 此 参数 结果 相同 ， 可 参考 实例 
ch9_8。 其 实 collapse 参数 除了 NULL 外 , 可 以 是 任何 其 他 字符 , 这 个 字符 将 是 连接 各 个 单字 的 字符 。 
实例 ch9_11 : 重新 设计 实例 ch9 9， 将 单字 间 以 “-“ 隔 开 。 

> paste(coffee.str, collapse = "-") 


[1] "Boiling-coffee-brings-out-a-bitterly-taste" 
> 
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9-4-4 再 谈 paste O 函数 


paste () 函数 的 主要 作用 是 将 两 个 或 多 个 向 量 连接 。 
实例 ch9_12 : 将 两 个 向 量 连 接 的 应 用 实例 。 


> stri <- letters[1:6] 

» str2 «- 1:6 

> paste(strl, str2) # 两 个 向 量 的 连接 

[1] "a 1" "b 2" "c 3" "d 4" "e 5" "f 6e" 


由 上 述 执行 结果 可 知 ， 向 量 strl 的 第 1 个 元 素 和 str2 的 第 1 个 元 素 连接 了 ， 同 时 向 量 strl 的 
第 2 个 元 素 和 str2 的 第 2 个 元 素 连 接 ， 其 他 依 此 类 推 。 在 连接 的 结果 向 量 中 ， 每 个 元 素 间 是 以 空 
格 分 开 的 ， 如 果 我 们 不 想 让 元 素 间 有 空格 ， 可 以 在 paste O 函数 内 加 上 sep =“ ”参数 。 
实例 ch9_13 : 将 两 个 向 量 连接 ,连接 的 结果 向 量 的 元 素 间 没有 空格 。 


> strl <- letters[1:6] 

> str2 <- 1:6 

> paste(stril, str2, sep = "") ANARE 
[1] "ai" "b2" "c3" "d4" "e5" "f6" 


如 果 要 连接 的 两 个 向 量 的 长 度 ( 元素 个 数 ) 不 相同 时 ,会 如 何 呢 ? 这 时 R 会 使 用 重复 机 制 ， 
让 较 短 的 向 量 重复 ， 直 至 与 较 长 向 量 的 长 度 相等 。 
实例 ch9_14 : 将 两 个 向 量 连接 ， 但 两 个 向 量 长 度 不 相同 。 

> str3 «- 1:5 

> paste(strl, str3, sep = "") 

[1] "a1" "b2" "c3" "d4" "e5" "f1" 

由 上 述 执行 结果 可 以 知道 ， 较 短 的 向 量 必须 重复 ， 所 以 较 短 的 字符 串 strl 的 第 1 个 元 素 再 和 
较 长 的 字符 串 str3 的 第 6 个 元 素 连接 ， 再 看 一 个 实例 。 
实例 ch9_15 : 另 一 个 将 两 个 向 量 连接 ， 但 两 个 向 量 长 度 不 相同 的 实例 。 

> paste("R", str3, sep = "") LISMNI 1:953: 


[1] "Ri" "R2" "R3" "R4" "R5" 
> 


在 上 述 例子 中 ， 短 向 量 只 有 一 个 元 素 “R”"， 所 以 只 好 重复 5 次， 以 配合 较 长 的 向 量 ， 这 在 R 
语言 的 功能 中 称 Recycling， 即 较 短 的 向 量 元 素 被 回收 重复 使 用 。 其 实 sep 参数 的 作用 主要 是 设 定 
两 个 元 素 间 如 何 连接 ， 下 列 是 另 一 个 实例 。 
实例 ch9_16 : 重新 设计 实例 ch9_13， 将 元 素 间 用 “_” 隔 开 的 实例 。 


> paste(stri, str2, sep = "_") SPANISH RES 
[1] "G1" "b2" "e3" "d 4" "e S" "£6" 
> 
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最 后 ，paste () 函数 也 可 以 将 两 个 向 量 连接 成 一 个 向 量 ， 此 时 要 使 用 之 前 曾 用 过 的 collapse 
参数 。 
实例 ch9_17 : 重新 设计 实例 ch9_15， 使 结果 是 一 个 字符 串 。 

> paste("R", str3, sep = 


[1] "R1 R2 R3 R4 R5" 


> 


实例 ch9_18 : 重新 设计 实例 ch9_16， 使 结果 是 一 个 字符 串 。 


> paste(strl, str2, sep = " ", collapse = " "j 
[1] "a.1b.2 c3 d 4 e 5 f. 6" 
> 





, collapse = " ") 


9-4-5 ds So ERIT HT 


本 小 节 将 应 用 所 学 的 知识 ， 设 计 一 个 完整 的 扑克 牌 向 量 。 
实例 ch9_19 : 建立 一 个 扑克 牌 向 量 


> cardsuit «- c("Spades", "Hearts", "Diamonds", "Clubs") 
» cardnum «- c("A", 2:10, "J", "Q", "K") 
> deck «- paste(rep(cardsuit, each = 13), cardnum) 
» deck 
[1] "Spades A" "Spades 2" "Spades 3" "Spades 4" "Spades 5" 
[6] "Spades 6" "Spades 7" “Spades 8" “Spades 9" "Spades 10" 
[11] "Spades J" "Spades Q" "Spades K" "Hearts A" "Hearts 2" 
[16] "Hearts 3" "Hearts 4" "Hearts 5" "Hearts 6" "Hearts 7" 
[21] "Hearts 8" "Hearts 9" "Hearts 10" "Hearts J" "Hearts Q" 
[26] "Hearts K" "Diamonds A" "Diamonds 2" "Diamonds 3" "Diamonds 4" 
[31] "Diamonds 5" "Diamonds 6" "Diamonds 7" "Diamonds 8" "Diamonds 9" 
[36] "Diamonds 10" "Diamonds J" "Diamonds Q" "Diamonds K" "Clubs A" 


[41] "Clubs 2" "Clubs 3" "Clubs 4" "Clubs 5" "Clubs 6" 
[46] "Clubs 7" "Clubs 8" "Clubs 9" "Clubs 10" "Clubs J" 
[51] "Clubs Q" "Clubs K" 


对 这 个 实例 而 言 ，cardsuit 是 代表 扑克 牌 的 4 种 花色 ，cardnum 是 代表 扑克 牌 的 数字 ， 先 利用 
rep () 函数 产生 52 张 牌 的 花色 ， 然 后 利用 paste O 函数 将 花色 与 扑克 牌 数字 组 合 。 


EX 字符 串 数据 的 排序 


在 数据 的 使 用 中 ， 数 据 排序 是 一 个 常用 的 功能 ,在 R 语言 中 这 是 一 个 简单 的 功能 ， 在 第 4 章 
4-2 节 中 笔者 曾 介绍 sot O 函数 ， 将 一 个 数值 向 量 的 元 素 值 排序 ， 本 节 将 探讨 如 何 为 字符 串 向 量 
排序 。 
实例 ch9_20 : 为 字符 串 向 量 排序 。 
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> coffee.str 状 了 解 字符 串 向 量 内 容 

[1] "Boiling" "coffee" "brings" "out" "a" "bitterly" "taste" 
» sort(coffee.str) EHE 

[1] "a" "bitterly" "Boiling" "brings" "coffee" "out" "taste" 
> 


由 上 述 执行 结果 可 以 知道 ，sort O 函数 会 为 字符 串 向 量 的 元 素 排 序 ， 默 认 是 由 小 排 到 大 ， 至 
于 元 素 本 身 则 不 做 排序 。 另 外 ， 对 于 “Boiling”"、“brings” 和 “bitterly” 而 言 ， 排 序 时 如 果 碰 上 
首 字母 “b” 或 “B” 相 同 , 会 先 比较 下 一 个 英文 字母 ， 此 例 是 比较 “o”“r”“i”", 最 后 青 比 大 小 
写 。 另 外 ，decreasing 参数 默认 是 FALSE， 如 果 设 为 TRUE， 则 排序 是 按 由 大 排 到 小 。 
实例 ch9_21 : 为 字符 串 向 量 排序 的 实例 ， 主 要 是 了 解 字母 相同 大 小 写 不 同 的 排序 方式 。 

> sort(c("Bb", "bb")) 

[1] "bb" "Bb" 

> sort(c("Bb", "bb"), decreasing = TRUE) 

[1] "Bb" "bb" 

在 上 述 实例 中 笔者 故意 使 用 大 写 和 小 写 的 “B” 和 “b”， 主 要 是 供 读者 了 解 字母 相同 但 大 小 
写 不 同时 的 排序 方式 。 
实例 ch9_22 : 重新 设计 实例 ch9_20 为 字符 串 向 量 排序 ， 将 参数 decreasing 设 为 TRUE。 


> coffee.str 


[1] "Boiling" "coffee" "brings" "out" "a" "bitterly" 
[7] "taste" 

> sort(coffee.str, decreasing = TRUE) 

[1] "taste" "out" "coffee" "brings" “Boiling” "bitterly" 
[7] "a" 

> 


EN 搜索 字符 串 的 内 容 


在 介绍 此 节 内 容 以 及 接 下 来 几 节 内 容 前 ,我 们 首先 了 解 一 下 R 语言 系统 内 建 的 数据 集 state. 
name， 如 下 所 示 。 


> state.name 


[1] "Alabama" "Alaska" "Arizona" "Arkansas" 

[5] "California" "Colorado" "Connecticut" "Delaware" 

[9] "Florida" "Georgia" "Hawaii" "Idaho" 

[13] "Illinois" "Indiana" "Iowa" "Kansas" 

[17] "Kentucky" "Louisiana" "Maine" "Maryland" 

[21] "Massachusetts" "Michigan" "Minnesota" "Mississippi" 
[25] "Missouri" "Montana" "Nebraska" "Nevada" 

[29] "New Hampshire" "New Jersey" "New Mexico" "New York" 

[33] "North Carolina" "North Dakota" "Ohio" "Oklahoma" 

[37] "Oregon" "Pennsylvania" “Rhode Island" “South Carolina" 
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[41] "South Dakota" ^ "Tennessee" "Texas" “Utah” 
[45] "Vermont" "Virginia" "Washington" "West Virginia" 
[49] "Wisconsin" "Wyoming" 


> 


9-6-1 使 用 索引 值 搜索 


如 果 我 们 知道 所 要 搜索 的 字符 串 的 索引 值 ， 那 么 可 以 使 用 substr O 函数 寻找 ， 笔 者 将 直接 以 
实例 说 明 substr () 函数 的 用 法 。 


实例 ch9_23 : 列 出 state.name 数据 集 内 第 2 到 第 4 个 子 字符 串 。 


> substr(state.name, start = 2, stop = 4) 

[1] "lab" "las" "riz" "rka" "ali" "olo" "onn" "ela" "lor" "eor" "awa 
[12] "dah" "lli" "ndi" "owa" "ans" "ent" "oui" "ain" "ary" "ass" "ich" 
[23] "inn" "iss" "iss" "ont" "ebr" "eva" "ew " "ew " "ew " "ew " "ort" 
[34] "ort" "hio" "kla" "reg" "enn" "hod" "out" "out" "enn" "exa" "tah" 
[45] "erm" "irg" "ash" "est" "isc" "yom" 

> 


9-6-2 ”使 用 grep ( 函数 搜索 


grep O 是 一 个 寻找 功能 非常 强大 的 函数 ，grep 名 称 是 从 Unix 系统 而 来 ， 它 的 英文 全 名 是 
Global Regular Expression Print。 例 如 ， 如 果 你 去 图 书馆 想 找 一 本 书 ， 只 知道 是 Word 2013 的 书 ， 
却 不 知道 完整 书 名 ， 那 么 可 以 只 输入 “Word 2013”， 系 统 即 可 搜索 。 这 个 函数 的 基本 使 用 格式 如 
下 所 示 。 

grep ( pattern, x ) 

口 pattern : 代表 搜索 的 目标 内 容 。 
Q x : 是 字符 串 向 量 。 
实例 ch9_24 : 搜索 state.name 数据 集中 ， 字 符 串 含 “M” 的 州 。 


> grep("M", state.name) 
[1] 19 20 21 22 23 24 25 26 31 
> 


由 上 述 执行 结果 ,我 们 获得 了 字符 串 含 “M” 的 州 所 对 应 的 索引 值 。 当 然 我 们 可 以 使 用 下 列 
方式 获得 州 名 。 
实例 ch9_25 : 获得 前 一 个 实例 中 ,索引 值 是 19 的 州 名 。 

> state.name[19] 


[1] "Maine" 
> 


我 们 获得 州 名 了 ,但 每 一 个 州 均 须 如 此 是 有 一 点 麻烦 ， 如 果 想 获得 完整 的 州 名 ， 可 使 用 下 列 
方式 优化 。 
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实例 ch9_26 : 改良 实例 ch9_24， 获 得 完整 的 州 名 。 


> state.name[grep("M", state.name)] 


[1] "Maine" "Maryland" "Massachusetts" "Michigan" 
[5] "Minnesota" "Mississippi" "Missouri" "Montana" 
[9] "New Mexico" 

- 


grep O. 函数 对 于 英文 字母 大 小 写 是 敏感 的 ， 例 如 ， 如 果 搜 索 的 是 “m”， 将 有 完全 不 同 的 结果 。 
实例 ch9_27 : 搜索 state.name 数据 集中 ， 字 符 串 含 “m” 的 州 。 


> state.name[grep("m", state.name)] 
[1] "Alabama" "New Hampshire" "Oklahoma" "Vermont" 


[5] "Wyoming" 


美国 有 许多 州 是 以 “New” 开 头 ， 下 列 是 可 以 搜索 州 名 含 “New” 的 州 实例 。 
实例 ch9_28 : 搜索 state.name HAREP, MAE “New” WIIS 


> state.name[grep("New", state.name)] 
[1] "New Hampshire" "New Jersey" "New Mexico" "New York" 
> 


如 果 在 搜索 时 ， 找 不 到 所 搜索 的 内 容 ，R 语言 将 返回 “character ( 0 六， 表示 是 空 的 向 量 。 
实例 ch9_29 : 搜索 state.name 数据 集中 ， 州 名 含 “new” 的 州 。 


> state.name[grep("new", state.name)] 
character(0) 
> 


如 果 要 搜索 州 名 含 2 个 单字 的 州 ， 可 以 使 用 搜索 空格 (“”) 处 理 。 
实例 ch9_30 : 搜索 state.name 数据 集中 ， 州 名 含 两 个 单字 的 州 。 
> state.name[grep(" ", state.name)] 
[1] "New Hampshire" "New Jersey" "New Mexico" "New York" 
[5] "North Carolina" "North Dakota" "Rhode Island" "South Carolina" 


[9] "South Dakota" "West Virginia" 
> 


字符 串 内 容 的 更 改 


sub O 函数 可 以 将 搜索 的 字符 串 内 容 进行 更 改 ， 这 个 函数 的 使 用 格式 如 下 所 示 。 
sub ( pattern, replacement, x ) 

口 pattern : 要 搜索 的 字符 串 。 

O replacement : 欲 取代 的 字符 串 。 

口 x : 字符 串 向 量 。 
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实例 ch9_31 : 将 state.name ZEEP, MEEA “New” MAPKY “New”, BUR “Od” FER, 


> sub("New", "Old", state.name) 


[1] "Alabama" "Alaska" "Arizona" "Arkansas" 

[5] "California" "Colorado" "Connecticut" "Delaware" 

[9] "Florida" "Georgia" "Hawaii" "Idaho" 

[13] "Illinois" "Indiana" "Iowa" "Kansas" 

[17] "Kentucky" "Louisiana" "Maine" "Maryland" 

[21] "Massachusetts" "Michigan" "Minnesota" "Mississippi" 
[25] "Missouri" "Montana" "Nebraska" "Nevada" 

[29] "Old Hampshire" "Old Jersey" "Old Mexico" "Old York" 

[33] "North Carolina" "North Dakota" "Ohio" "Oklahoma" 

[37] "Oregon" "Pennsylvania" “Rhode Island" "South Carolina" 
[41] "South Dakota" ^ "Tennessee" "Texas" "Utah" 

[45] "Vermont" "Virginia" "Washington" "West Virginia" 
[49] "Wisconsin" "Wyoming" 

> 


在 执行 用 一 个 字符 串 取代 另 一 个 字符 串 的 指令 时 ， 如 果 是 用 空 字符 串 (“”) 取代 ， 相 当 于 是 
将 原 字符 串 删 除 。 
实例 ch9_32 : 有 3 个 字符 串 分 别 是 “testl.xls”、“test2.xls” 和 “test3.xls”"， 将 这 3 个 字符 串 更 改 
gg "1". "2" $ "5" 


» strtest «- c("testl.xls", "test2.xls", "test3.xls") 


> str4 <- sub("test" , "", strtest) TE Fi$SBtest 
» str4 

[1] "Amis" "2.xla" "Sisig" 

» sub(".xls", "", str4) TIRTPRHRXIS 
(1) "1" ^2" *3" 

> 


在 上 述 实例 中 ， 笔 者 分 两 步 删 除 部 分 字符 串 ， 第 1 步 是 删除 “test"， 第 2 步 是 删除 “.xls”， 
最 后 得 到 上 述 结果 。 


EN] 正则 表达 式 (Regular Expression) 


在 前 几 节 我 们 学 会 了 使 用 固定 方式 搜索 和 取代 字符 串 ， 本 节 将 介绍 R 语言 内 更 复杂 的 正则 表 
IKIN ( Regular Expression )， 让 搜索 变 得 更 复杂 。 
9-8-1 搜索 具有 可 选择 性 

搜索 具有 可 选择 性 ， 相 当 于 具有 or 的 特性 ， 它 的 R 语法 是 使 用 “Il” 符号 ， 这 个 符号 与 “\” 
在 相同 键 。 
实例 ch9_33 : 搜索 state.nme 中 ， 州 名 含有 “New” 和 “South” 的 州 。 
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> state.name[grep("New|South", state.name)] 

[1] "New Hampshire" "New Jersey" "New Mexico" "New York" 
[5] "South Carolina" "South Dakota" 

- 


上 述 实例 中 需要 留意 的 是 “New”、“l” 和 “South” 间 不 可 以 有 空格 。 


9-8-2 ”搜索 分 类 字符 串 


可 以 使 用 “(0)” 符号 搭配 前 一 小 节 的 “I” 符 号 ,将 所 搜索 的 字符 串 分 类 。 假 设 有 一 个 字符 串 
向 量 ， 如 下 所 示 。 


> str5 <- c("ch6.xls","ch7.xls","ch7.c", "ch7.doc", "ch8.xls") 
> 


实例 ch9_34 : 使 用 str5 对 象 ， 搜 索 其 中 含 “ch6” 或 “ch7” 并 同时 含 “.xls” 的 字符 串 。 


> str5[grep("ch(617).xls", str5)] 
[1] "ch6.xls" "ch7.xls" 
> 


9-8-3 ”搜索 部 分 字符 可 重复 的 字符 串 


在 搜索 中 可 以 添加 “*” 代 表 出 现 0 次 或 多 次 ,添加 “+” 代 表 1 次 或 多 次 。 假 设 有 一 个 字符 
串 向 量 ， 如 下 所 示 。 


> Str6 <- c("ch.xls","ch7.xls","ch77.xls", "ch87.xls", "ch88.xls") 
> 


实例 ch9_35 : 使 用 str6 对 象 ， 搜 索 其 中 依次 含 “ch”，0 到 多 个 “7” 或 “8”,“.xls” 的 字符 串 。 


> str6[grepC"ch(7*18*).xls", str6)] 
[1] "ch.xis"  "ch7.xls" "ch77.xls" "ch88.xls" 
> 


实例 ch9_36 : 使 用 str6 对 象 ， 搜 索 其 中 依次 含 “ch”"，1 到 多 个 “7” 或 “8”,“.xls” 的 字符 串 。 


> str6[grep("ch(7*18*).xls", str6)] 
[1] "ch?.xls" "ch77.xls" "ch88.xls" 
> 


对 于 实例 ch9_36 而 言 ， 字 符 串 中 必须 至 少 要 有 一 个 “7” 或 “8”， 所 以 使 用 的 正则 表达 式 符 
号 是 “+”， 这 使 “ch.xls” 不 符合 规则 。 
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一 、 判 断 题 


( 


) IL. 


) 6. 


有 如 下 两 个 命令 。 
> X «- c("Good Night") 
> strsplit(x, " ") 


cE] 
[1] "Good" "Night" 


由 上 述 执行 结果 可 以 知道 susplit O 函数 可 以 将 此 段 语 句 拆散 成 单词 ， 以 空格 为 界 ， 同 


时 返回 向 量 对 象 。 
有 如 下 两 个 命令 。 


> X «- c("Hello R") 
» toupper(x) 


执行 后 可 以 得 到 下 列 输出 结果 。 
[1] "HELLO R" 
有 如 下 两 个 指令 。 


> X «- c("A", "B", "A", "C", "B") 
» unique(x) 


执行 后 可 以 得 到 下 列 输 出 结果 。 
[1] "A" "B" "C" 

有 如 下 系列 命令 。 

> xl <- LETTERS[1:3] 

> X2 <- 1:3 

> paste(x1l, x2) 

执行 后 可 以 得 到 下 列 输出 结果 。 
[1] "A1" "B2" "C3" 

有 如 下 系列 命令 。 


> xl <- LETTERS[1:6] 
> X2 <- 1:5 
> paste(x1, x2) 


上 述 命令 执行 后 会 有 错误 产生 。 
下 列 命 令 可 以 搜索 state.name 数据 集中 ， 州 名 含 “M” 的 州 。 


> substr("M", state.name) 


下 列 指令 可 以 搜索 state.name 数据 集中 ,， 州 名 含 两 个 单字 的 州 。 
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> state.name[grep(" ", state.name)] 

下 列 命令 可 以 搜索 state.name HREH, MAEA “New” M “South” KIM 
> state.name[grep("New | South", state.name)] 

执行 后 可 以 得 到 下 列 输出 结果 。 


[1] "New Hampshire" "New Jersey" "New Mexico" "New York" 
[5] "South Carolina" "South Dakota" 


二 、 单 选 题 


( 


)1. 


有 如 下 命令 。 
»X«-c("A", "B". "A". "C". "gy 


下 列 哪 一 个 命令 执行 后 ， 可 以 得 到 下 列 输出 结果 ? 


[1] Wy ii a 

A. > sort(x) B. » strsplit(x) 

C. > unique(x) D. > grap[uniqueC" ", x] 
有 字符 串 st， 其 内 容 如 下 所 示 。 

> st 


[1] "Silicon" "Stone" "Education" 

下 列 哪 一 命令 执行 后 可 以 得 到 下 列 输 出 结果 ? 

[1] "Silicon Stone Education" 

A. » paste(st) B. > paste(st, collapse = NULL) 
C.» paste(st, sep = "") D.» paste(st, collapse = " ") 
有 如 下 两 个 命令 。 


> strl <- LETTERS[1:5] 
> str2 «- 1:5 


下 列 哪 一 命令 执行 后 可 以 得 到 下 列 输出 结果 ? 
[1] "Ai" "B2" "C3" "D4" "ES" 

A.» paste(strl, str2, sep = "") 

B.» paste(strl, str2, sep- " ") 

C.» paste(strl, str2, collapse = NULL) 

D. > paste(strl, str2, collapse = "") 

有 如 下 两 个 命令 。 


> card «- c("Spades", "Hearts", "Diamonds", "Clubs") 
> cnum <- c("A", 2:10, "J", "Q", "K") 
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下 列 哪 一 命令 执行 后 可 以 得 到 下 列 输出 结果 ? 

[1] "Spades A" “Spades 2" "Spades 3" "Spades 4" "Spades 5" 
[6] "Spades 6" "Spades 7" "Spades 8" "Spades 9" "Spades 10" 
[11] "Spades J" "Spades Q" "Spades K" ^ "Hearts A" ^ "Hearts 2" 
[16] "Hearts 3" "Hearts 4" "Hearts 5" “Hearts 6" “Hearts 7" 
[21] "Hearts 8" "Hearts 9" "Hearts 10" “Hearts J" "Hearts Q" 
[26] "Hearts K" "Diamonds A" "Diamonds 2" "Diamonds 3" "Diamonds 4" 
[31] "Diamonds S" "Diamonds 6" "Diamonds 7" "Diamonds 8" "Diamonds 9" 
[36] "Diamonds 10" "Diamonds J" "Diamonds Q" "Diamonds K" "Clubs A" 
[41] "Clubs 2" "Clubs 3" "Clubs 4" "Clubs 5" "Clubs 6" 
[46] "Clubs 7" "Clubs 8" "Clubs 9" "Clubs 10" "Clubs J" 
[51] "Clubs Q" "Clubs K" 


A. > paste(card[1:52], cnum) 
B. > paste(rep(card, each = 13), cnum) 
C.» paste(rep(card, each = 52), cnum) 
D.» paste(card, cnum) 
(25. 搜索 R 语 言 内 附 的 state.name 数据 ， 下 列 哪 一 命令 可 以 搜索 state.name 内 含 “New” 
字符 串 的 州 ， 并 且 执 行 后 可 以 得 到 下 列 输出 结果 ? 
[1] "New Hampshire" "New Jersey" "New Mexico" "New York" 
A. > substr("New", state.name) 
B. > grep("New", state.name) 
C.» state.name[grep("New", state.name)] 
D. > strsplit("New", state.name) 
( )6. 184: R 语言 内 附 的 state.name 数据 ， 下 列 哪 一 命令 可 以 搜索 state.name W 9M 44 VJ 
“N” 或 “M” 的 州 ， 并 且 执行 后 可 以 得 到 下 列 输 出 结果 ? 


[1] "Maine" "Maryland" "Massachusetts" "Michigan" 

[5] "Minnesota" "Mississippi" "Missouri" "Montana" 

[9] "Nebraska" "Nevada" "New Hampshire" "New Jersey" 
[13] "New Mexico" "New York" "North Carolina" "North Dakota" 


A. > grep("NIM", state.name) 
B. » state.name[grep("NIM", state.name)] 
C.» state.name[grep("N | M", state.name)] 
D. > grepC"N | M", state.name) 
C 7. 有 一 个 字符 串 内 容 如 下 所 示 。 
> strtxt <- c("ch.txt", "ch3.txt", "ch33.txt", "ch83.txt" , "ch88.txt") 
下 列 哪 一 命令 执行 后 可 以 得 到 下 列 输出 结果 ? 
i] "ch.txt" “ch3.txt” "ch33.txt" "ch88.txt" 


CHAPTER 09 进 阶 字符 串 的 处 理 


A.» strtxt[grep("ch(318).txt", strtxt)] 
B. > strtxt[grep("ch(3-184).txt", strtxt)] 
C. > strtxt[grep("ch(3*|8*).txt", strtxt)] 
D.» strtxt[grep(C"ch(3-18-).txt", strtxt)] 
C ”) 8 有 一 个 字符 串 向 量 ， 其 内 容 如 下 所 示 。 
> strtxt «- c("ch.txt", "ch3.txt", "ch33.txt", "ch83.txt" , "ch88.txt") 
下 列 哪 一 命令 执行 后 可 以 得 到 下 列 结果 ? 
[1] "ch3.txt" "ch33.txt" "ch88.txt" 
A. > strtxt[grep("ch(318).txt", strtxt)] 
B. > strtxt[grep("ch(3*18*-).txt", strtxt)] 
C. > strtxt[grep("ch(3*18*).txt", strtxt)] 
D.» strtxt[grep("ch(3-18-).txt", strtxt)] 


三 、 多 选 题 

C 01r 下 列 哪些 函数 具有 搜索 字符 串 的 功能 ? ( 选择 两 项 ) 
A. strsplit () B. strsearch () 
C. grep () D. substr () 
E. unique () 


四 、 实 际 操作 题 ( 如 果 题 目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 
1. 请 将 自己 的 姓名 转 成 英文 ， 可 以 得 到 3 个 字符 串 。 例 如 : 
"Hung" “Jiin”“Kwei” 
(1 ) 请 用 paste O 函数 ， 将 上 述 字 符 串 转 成 下 列 字 符 串 。 
a. “Hung Jiin Kwei” o 
b. “Jiin Kwei Hung". 
(2) 请 将 “Hung Jiin Kwei” 字 符 串 转 成 “Hung”“Jiin”“Kwei”。 
2. 请 建立 5 个 姓名 字符 串 数据 ， 然 后 执行 排序 从 小 排 到 大 和 从 大 排 到 小 。 
3. 搜索 state.name 数据 集中 ， 字 符 串 含 “South” 的 州 。 
4. ”搜索 state.name ARER, FARE “M” WM, i “M” BUR “m” 
5. 搜索 state.name 数据 集中 ， 州 名 只 含 一 个 单字 的 州 。 
6. 搜索 state.name ŽEP, MAE “A” A “M” WM 
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在 现实 生活 中 ,不 论 是 怎样 的 数据 ， 大 都 和 时 间 有 关 。 例 如 ， 作 股市 分 析 ， 一 定 要 记录 每 天 
每 一 个 时 间 点 的 股价 。 作 气候 分 析 ， 也 必须 要 记录 每 天 每 个 时 间 点 的 数据 。 笔 者 将 在 本 章 介绍 R 
语言 有 关 日 期 和 时 间 的 处 理 。 


日 期 的 设置 与 使 用 


R 语言 有 一 系列 的 日 期 函数 ， 本 节 将 一 一 说 明 。 
10-1-1 as.Date O 函数 


as.Date () 函数 可 用 于 设置 日 期 向 量 ， 这 个 函数 的 默认 日 期 格式 如 下 所 示 。 
"YYYY-MM-DD" 
Y 是 代表 年 份 ，M 是 代表 月 份 ，D 是 代表 日 期 。 

实例 ch10_1 : 为 2016 年 8 月 1 日 建立 一 个 日 期 向 量 


> x.date «- as.Date("2016-08-01") 
» x.date 

[1] "2016-08-01" 

» str(x.date) 

Date[1:1], format: "2016-08-01" 


日 期 向 量 也 可 以 和 数值 向 量 一 样 ， 进 行 加 法 或 减法 运算 ， 分 别 获 得 加 上 几 天 或 减 上 几 天 的 结果 。 
实例 ch10_2 : 列 出 未 来 30 天 的 日 期 向 量 。 


> x.date + 0:30 

[1] "2016-08-01" "2016-08-02" "2016-08-03" "2016-08-04" "2016-08-05" 
[6] "2016-08-06" "2016-08-07" "2016-08-08" "2016-08-09" "2016-08-10" 
[11] "2016-08-11" "2016-08-12" "2016-08-13" "2016-08-14" "2016-08-15" 
[16] "2016-08-16" "2016-08-17" "2016-08-18" "2016-08-19" "2016-08-20" 
[21] "2016-08-21" "2016-08-22" "2016-08-23" "2016-08-24" "2016-08-25" 
[26] "2016-08-26" "2016-08-27" "2016-08-28" "2016-08-29" "2016-08-30" 
[31] "2016-08-31" 

> 


实例 ch10 3 : 列 出 过 去 6 天 的 日 期 向 量 。 
> x.date - 0:6 
[1] "2016-08-01" "2016-07-31" "2016-07-30" "2016-07-29" "2016-07-28" 


[6] "2016-07-27" "2016-07-26" 
> 


10-1-2 weekdays O FR 


weekdays () 函数 可 返回 某 个 日 期 是 星期 几 。 
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实例 ch10 4 : 列 出 2016 年 8 月 1 日 ， 也 就 是 x.date 日 期 对 象 是 星期 几 。 
> weekdays(x.date) 
[ “局 一 " 


上 述 指令 返回 的 是 中 文 “ 周 一 "， 这 是 因为 在 安装 R 语言 时 ，R 语言 会 先 检测 目前 所 使 用 操作 
系统 的 语言 版 本 ， 自 动 将 weekdays O 函数 或 下 一 节 要 介绍 的 months O 函数 先进 行 本 地 化 处 理 。 
更 多 细节 会 在 10-1-5 节 进 行 说 明 。 
实例 ch10_5 : 列 出 2016 年 8 月 1 日， 也 就 是 xdate 日 期 对 象 以 及 未 来 6 天 是 星期 几 。 

> weekdays(x.date + 0:6) 


[1] “周一 " "周二 " "Hz" "Jmm" "HE" "EA" "SB" 
> 


10-1-3 months () 函数 
months () 函数 可 返回 某 个 日 期 对 象 是 几 月 。 

实例 ch10_6 : 列 出 2016 年 8 月 1 日 ， 也 就 是 x.date 日 期 对 象 是 几 月 。 
> months(x.date) 


[1] "88" 


> 


10-1-4 quarters O HX 


quarters () 函数 可 返回 某 个 日 期 对 象 是 第 几 季 。 
实例 ch10_7 : 列 出 2016 年 8 月 1 日 ， 也 就 是 x.date 日 期 对 象 是 第 几 季 。 


> quarters(x.date) 
[1] "Q3" 
> 
10-1-5 Sys.localeconv () 函数 


Sys.localeconv () 函数 可 以 让 你 了 解 目前 所 使 用 系统 的 本 地 化 的 各 项 参数 的 使 用 格式 。 
实例 ch10_8 : 了 解 目前 所 使 用 系统 的 本 地 化 的 各 项 参数 的 使 用 格式 。 


> Sys.localeconv() 


decimal point thousands. sep grouping int curr symbol 
D nn “n "TWD " 
currency_symbol mon_decimal_point mon_thousands_sep mon_grouping 
"NTS" en ku "N003N003" 

positive sign negative sign int frac digits frac digits 
"n "^ "2" "2" 


p-cs.precedes p-sep.by space n.cs. precedes n.sep by. space 
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"q" "9" ^" "9" 
p-sign.posn n.sign posn 
"1" "4" 


10-1-6 Sys.Date O 函数 


Sys.Date () 函数 可 以 返回 目前 的 系统 日 期 。 
实例 ch10_9 : 取得 目前 的 系统 日 期 。 


> Sys.Date() 
[1] "2015-08-05" 
> 


10-1-7 再 谈 seq O 函数 


在 第 4 章 的 4-1-3 节 笔 者 曾 介绍 过 seq O 函数 ， 使 用 这 个 函数 可 以 建立 向 量 对 象 ， 我 们 也 可 
以 使 用 这 个 函数 建立 与 日 期 有 关 的 向 量 对 象 。 再 看 一 次 这 个 函数 的 使 用 格式 ， 如 下 所 示 。 

seq ( from, to, by = width, length.out = numbers ) 

对 于 将 seq O 函数 应 用 在 日 期 向 量 ， 最 重要 的 是 “by =” 参 数 ， 它 可 以 是 多 少 天 “days”， 多 
少 周 “weeks”"， 也 可 以 是 多 少 个 月 “months”。 


实例 ch10_10 : 仍 以 2016 年 8 月 1 日 ， 也 就 是 x.date 日 期 对 象 为 基础 ,每 加 1 个 月 产生 1 个 元 
X. HUE 12 个 元 素 。 


> new.date «- seq(x.date, by = "1 months", length.out = 12) 

» new.date 

[1] "2016-08-01" "2016-09-01" "2016-10-01" "2016-11-01" "2016-12-01" 
[6] "2017-01-01" "2017-02-01" "2017-03-01" "2017-04-01" "2017-05-01" 
[11] "2017-06-01" "2017-07-01" 
> 


实例 ch10_11 : 以 现在 的 系统 日 期 为 基础 ， 每 隔 两 周 产生 一 个 元 素 ， 共 产生 6 个 元 素 。 


> new.current.date «- seq(current.date, by - "2 weeks", length.out = 6) 
» new.current.date 

[1] "2015-08-05" "2015-08-19" "2015-09-02" "2015-09-16" "2015-09-30" 
[6] "2015-10-14" 

> 


实例 ch10_12 : 以 2016 年 8 月 1 日 ,也 就 是 xdate 日 期 对 象 为 基础 ， 每 加 3 天 产生 一 个 元 素 ， 共 
产生 10 个 元 素 。 





> new.date2 <- seq(x.date, by = "3 days", length.out = 10) 

» new.date2 

[1] "2016-08-01" "2016-08-04" "2016-08-07" "2016-08-10" "2016-08-13" 
[6] "2016-08-16" "2016-08-19" "2016-08-22" "2016-08-25" "2016-08-28" 
> 
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10-1-8 ”使 用 不 同 格式 表示 日 期 


使 用 这 么 多 次 as.Date () 函数 ， 相 信 各 位 已 经 了 解 这 个 函数 的 默认 格式 了 ， 其 实 R 语言 支持 
将 各 式 的 日 期 格式 转 成 as.Date O 函数 的 日 期 格式 的 功能 。 
实例 ch10_13 :将 2016 年 8 月 1 日 “182016”",， 转 成 as.Date () 函数 的 日 期 格式 。 


> as.Date("1 8 2016", format = "Xd Xm %Y") 
[1] "2016-08-01" 
> 


在 上 述 实例 中 可 以 发 现 as.Date O 函数 的 第 1 个 参数 ， 数 字 彼 此 是 用 空格 隔 开 的 ， 所 以 参数 
format 双 引 号 内 的 格式 代码 彼此 也 是 用 空格 隔 开 。 在 介绍 “%d”、“%m” 和 “%Y” 格 式 代 码 前 ， 
请 再 看 一 个 实例 。 
实例 ch10_14 : 将 2016 年 8 月 1 日 ”1/8/2016”"， 转 成 as.Date O 函数 的 日 期 格式 。 

> as.Date("1/8/2016", format = "Xd/3Xm/*XY") 


[1] "2016-08-01" 
> 


实例 ch10_14 与 实例 10_13 相 比 最 大 的 差别 在 于 as.Date () 函数 的 第 1 个 参数 的 日 期 数据 间 
是 用 “/” 隔 开 的 ， 所 以 第 2 个 参数 format 的 双 引 号 内 的 格式 代码 也 需 用 “/” 隔 开 。 有 关 日 期 的 常 
见 格式 代码 可 参考 下 列 说 明 。 

%B : 本 地 化 的 月 份 名 称 。 

%b : 本 地 化 的 月 份 名 称 的 缩写 。 

%d :2 位 数 的 日 期 ， 前面 为 0 时 可 省 略 。 

%m : 2 位 数 的 月 份 ， 前 面 为 0 时 可 省 略 。 

WY : 4 位 数 的 公元 年 。 

%y : 2 位 数 的 公元 年 ， 若 是 69-99 代表 开头 是 19，00-68 代表 开头 是 20。 

若 想 要 有 更 详细 的 说 明 ， 可 使 用 “help Cstrptime 。 
实例 ch10_15 : 将 本 地 化 的 日 期 ， 转 化 成 as.Date O 格式 。 


> as.Date("1 8H 2016", format = "Xd XB XY") 
[1] "2016-08-01" 
> 


对 上 述 实例 而 言 ， 需 要 特别 注意 的 是 参数 内 的 月 份 “8 月 "， 所 以 日 期 的 格式 代码 笔者 用 
“00B' 


时 间 的 设置 与 使 用 


数据 在 使 用 时 ， 有 日 期 是 不 够 的 ， 我 们 常常 需要 更 精确 的 时 间 ， 这 也 是 本 节 的 重点 。 


R 语言 一 一 迈 向 大 数据 之 路 


10-2-1 Sys.time () 函数 
Systime () 函数 可 以 返回 目前 的 系统 时 间 。 
实例 ch10_16 : 返回 目前 的 系统 时 间 。 


> Sys.time() 
[1] "2015-08-05 16:59:13 CST" 
- 


上 述 执行 结果 中 的 “CST” 代 表笔 者 目前 所 在 位 置 中 国 台 湾 所 在 时 区 的 代码 。 其 他 常见 的 时 
区 有 “GMT” 格 林 尼 治 时 区 ,“UTC” 是 协调 世界 时 ( Universal Time Coordinated ) 的 缩写 。 


10-2-2 as.POSIXct O 函数 


POSIX 是 UNIX 系统 上 所 使 用 的 名 称 ，R 语言 予以 沿用 。as.POSIXet () 函数 主要 是 用 于 设 定 
时 间 向 量 ， 这 个 时 间 向 量 默认 由 1970 年 1 月 1 日 开始 计数 ， 以 秒 为 单位 。 
实例 ch10_17 : 建立 一 个 系统 时 间 向 量 对 象 ， 时 间 为 1970 年 1 月 1 日 02:00:00。 


> x.time «- "1 1 1970, 02:00:00" 

> X.time.fmt <- "Xd Xm XY, XH:XM:XS" 

> x.Times <- as.POSIXct(x.time, format = x.time.fmt) 
> x.Times 

[1] "1970-01-01 02:00:00 CST" 

> 


在 上 述 实例 中 ， 笔 者 使 用 了 一 些 时 间 格式 代码 ， 有 关 时 间 的 常见 格式 代码 可 参考 下 列 说 明 。 

%H : 小 时 数 (00-23 )。 

961 : 小 时 数 ( 00-12 )。 

%M : 分 钟 数 (00-59 )。 

968 : 秒 钟 数 (00-59 )。 

%p : AM/FM, 

与 日 期 格式 代码 一 样 ， 若 想 要 有 更 详细 的 说 明 ， 可 使 用 "help ( strptime )" o 

由 于 as.POSIXet O 函数 所 返回 的 是 秒 数 ， 所 以 可 以 用 加 减 秒 数 ， 更 新 此 时 间 的 向 量 对 象 。 
实例 ch10 18 : 为 时 间 1970 年 1 月 1 日 02:00:00 增 加 330 秒 ,相当 于 5 分 30 秒 ， 以 实例 
ch10 17 所 建 的 x.Times 为 基础 。 


> x.Times + 330 
[1] "1970-01-01 02:05:30 CST" 
> 


所 有 时 间 要 从 1970 年 1 月 1 日 算 起 是 有 一 点 麻烦 ， 其 实 as POSIXet O 函数 有 一 些 参数 可 让 
此 函数 在 使 用 上 变 得 更 灵活 ， 如 以 下 所 示 。 
as.POSIXct (x,tz=“”， origin = ) 
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x : 一 个 对 象 ， 可 以 被 转换 。 

tz : 代表 时 区 。 

origin = : 可 指定 时 间 的 起 算 点 。 
实例 ch10_19 : 从 2000 年 1 月 1 日 起 算 , 时 区 是 格林 尼 治 时 区 “GMT”， 获 得 经 过 3600 秒 后 的 时 
间 结 果 。 

> as.POSIXct(3600, tz = "GMT", origin = "2000-01-01") 


[1] "2000-01-01 01:00:00 GMT" 
> 


10-2-3 ”时间 也 是 可 以 作 比 较 的 

第 4 章 4-7 节 所 介绍 的 逻辑 向 量 也 可 以 用 在 时 间 的 比较 上 ， 可 参考 下 列 实例 。 
实例 ch10_20 : 将 实例 ch10_17 所 建 的 1970 年 1 月 1 日 02:00:00 时 间 对 象 和 Sys.time O 函数 所 
传 回 的 时 间作 比较 。 


> x.Times > Sys.time() 
[1] FALSE 
> x.Times < Sys.time() 
[1] TRUE 


> 


10-2-4 seq O 函数 与 时 间 
seq () 函数 也 可 以 应 用 于 时 间 的 处 理 ， 可 参考 下 列 实例 。 
实例 ch10_21 : 使 用 x.Times 对 象 ， 每 一 年 增加 一 个 对 象 ， 让 时 间 向 量 长 度 为 6。 
> XNew.Times «- seq(x.Times, by - "1 years", length.out = 6) 
> XNew.Times 
[1] "1970-01-01 02:00:00 CST" "1971-01-01 02:00:00 CST" 
[3] "1972-01-01 02:00:00 CST" "1973-01-01 02:00:00 CST" 
[5] "1974-01-01 02:00:00 CST" "1975-01-01 02:00:00 CST" 


> 


10-2-5 as.POSIXIt © 函数 


这 个 函数 也 可 用 于 设 定时 间 和 日 期 ， 设 定 方式 和 asPOSIXet () 函数 相同 。 但 和 as.POSIXet () PR 
数 不 同 的 是 ，as.POSIXet O 函数 所 产生 的 对 象 是 向 量 对 象 ， 而 as.POSIXlt O 函数 则 是 产生 串 行 
(List) 对 象 ， 所 以 如 果 要 取得 此 串 行 对 象 的 元 素 ， 方 法 和 取向 量 对 象 元 素 的 方法 不 同 。 
实例 ch10_22 : 使 用 as.POSIXl O 函数 ， 重 新 设计 实例 ch10_17。 


> xlt.time «- "1 1 1970, 02:00:00" 
> xlt.time.fmt <- "Xd Xm XY, XH:XM:XS" 
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> xlt.Times <- as.POSIXlt(xlt.time, format = xlt.time.fmt) 
» xlt.Times 

[1] "1970-01-01 02:00:00 CST" 

- 


既然 知道 as.POSIXl () 函数 所 产生 的 是 串 行 对 象 ， 因 此 可 以 使 用 取 串 行 元 素 的 方法 取得 元 素 
内 容 。 
实例 ch10_23 : 列 出 前 一 实例 所 建 xlt.Times 对 象 的 年 份 。 


> xlt.Times$year 
[1] 70 


实例 ch10. 24 : 列 出 前 一 实例 所 建 xlt.Times 对 象 的 日 期 。 


> xlt.Times$mday 
]1i 


如 果 想 要 更 了 解 as.POSIXI O 函数 所 产生 的 串 行 对 象 的 结构 ， 可 使 用 unclass O 函数 ， 下 列 
是 执行 结果 。 

> unclass(xlt.Times) 

$sec 

[1] 0 

Smin 

[1] 0 


Shour 
pJ 2 


Smday 
(1 


$mon 
e 


$year 
[1] 70 


Swday 
0] 4 


Syday 
e 


Sisdst 
[1] 0 


$zone 
[1] e o a 


Sgmtoff 
[1] NA 


> 
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Q 上 述 实例 中 $ mon 月 份 值 应 该 是 “1”， 结 果 列 出 “0”， 这 应 该 是 R 系统 的 List 的 内 部 规划 。 


时 间 序列 


R 软件 内 与 时 间 有 关 的 变量 称 时 间 序列 (ts )， 将 数据 设 为 时 间 序 列 的 格式 和 各 参数 的 意义 如 
下 所 示 。 
ts Cx, start, end, frequency ) 
O x: 可 以 是 向 量 ( Vector )、 和 矩阵 ( Matrix ) 或 三 维 数组 (Array )。 
口 start : 时 间 起 点 ， 可 以 是 单一 数值 ， 也 可 以 是 含 两 个 数字 的 向 量 ， 后 面 会 以 实例 说 明 。 
O end : 时 间 终点 ， 它 的 数据 格式 应 与 start 相同 ， 通 常 可 以 省 略 。 
口 frequency : 相 较 于 start 时 间 起 点 的 频率 。 
实例 ch10_25 : 中 国 台 湾 2001 年 至 2010 年 的 出 生 人 口 的 统计 如 下 表 所 示 。 





























年 份 人 口 出 生 数 
1998 271450 
1999 283661 
2000 305312 
2001 260354 
2002 247530 
2003 227070 
2004 216419 
2005 205854 
2006 204459 
2007 204414 











为 上 述 数据 建立 一 个 年 份 的 时 间 序列 ， 指 令 如 下 所 示 。 


> num «- c(271450, 283661, 305312, 260354, 247530, 227070, 216419, 205854, 
204459, 204414) 
» num.birth «- ts(num, start - 1998, frequency - 1) 
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下 列 是 验证 执行 的 结果 。 


> num.birth 
Time Series: 
Start = 1998 
End = 2007 
Frequency = 1 


[1] 271450 283661 305312 260354 247530 227070 216419 205854 204459 


[10] 204414 
- 


由 上 述 执行 结果 中 的 “start = 1998” HI "frequency = 1” 可 以 判断 时 间 序 列 是 从 1998 年 开 


每 年 统计 一 次 。 


t 














实例 ch10. 27 : 石门 水 库 2016 4E. 1 月 至 12 月 水 位 高 度 的 统计 如 下 表 所 示 。 
月 份 水 位 高 度 
Jan. 240 
Feb. 236 
March 232 
April 231 
May 238 
June 241 
July 243 
Aug. 243 
Sep. 241 
Oct. 242 
Nov. 240 
Dec. 239 








为 上 述 数据 建立 一 个 月 份 的 时 间 序 列 ， 代 码 如 下 所 示 。 


> water «- c(240, 236, 232, 231, 238, 241, 243, 243, 241, 242, 240, 239) 


» water.levels «- ts(water, start - c(2016, 1), frequency - 12) 
> 


下 列 是 验证 执行 的 结果 。 


> Water.levels 
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 
2016 240 236 232 231 238 241 243 243 241 242 240 239 


- 





实例 ch10_28 : 天 岁数 字 公 司 2016 年 每 季 季 底 现金 部 位 的 统计 数据 如 下 表 所 示 。 
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由 上 述 代码 中 的 “start = e (2016, 1)" HI "frequency = 12” 可 以 判断 时 间 序 列 是 从 2016 年 1 
月 开始 ,每 月 统计 一 次 。 























季度 现金 部 位 
Q1 89778 
Q2 92346 
Q3 102311 
Q4 157800 





的 ， 
实例 ch10_29 : 从 2016 年 2 月 11 日 起 ,每 天 记录 开销 花费 ,记录 了 10 天， 数据 如 下 表 所 示 。 


为 上 述 数据 建立 一 个 季度 的 时 间 序 列 ， 代 码 如 下 所 示 。 


> cash «- c(89978, 92346, 102311, 157800) 
» cash.info «- ts(cash, start - c(2016, 1), frequency - 4) 
> 


下 列 是 验证 执行 的 结果 。 
> cash.info 
Qtrl Qtrz Qtr3 Qtr4 


2016 89978 92346 102311 157800 
> 





EH “start = c (2016, 1)". FI "frequency = 4” 可 以 判断 时 间 序 列 是 从 2016 年 1 月 开始 


每 季 统 计 一 次 。 





| 花费 | 500 | 345 | 220 | 218 | 670 | 1280 | 760 | 2000 | 280 | 320 | 





为 上 述 数 据 建立 一 个 日 期 的 时 间 序 列 ， 代 码 如 下 所 示 。 


> cost «- c(500, 345, 220, 218, 670, 1280, 760, 2000, 280, 320) 
> cost.info <- ts(cost, start = c(2016, 42), frequency = 365) 
> 


下 列 是 验证 执行 的 结果 。 


> cost.info 
Time Series: 
Start = c(2016, 42) 
End = c(2016, 51) 
Frequency - 365 
[1] 500 345 220 218 670 1280 760 2000 280 320 
> 


由 上 述 执行 结果 中 的 “start = e ( 2016. 42 )》 和 “frequency = 365” 可 以 判断 时 间 序 列 是 从 


2016 年 第 42 天 开始 ( 相当 于 2 月 11 日 开始 )， 每 天 统计 一 次 。 
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本 章 习题 
一 、 判 断 题 
C or 有 如 下 命令 。 
> x.date <- as.Date("2016-01-01") 
以 下 指令 可 返回 x.date 和 过 去 3 天 的 星期 数据 。 
> weekdays(x.date - 0:3) 
(2. 有 如 下 两 个 命令 。 
> X.date <- as.Date("2016-01-01") 
> months((x.date)) 
执行 后 可 以 得 到 下 列 结 果 。 
1 "78" 
(23. Systime O 可 以 取得 格林 尼 治 ( GMT ) 时 间 。 
C )4 asPOSIXet O 函数 所 返回 的 是 秒 数 ， 所 以 可 以 用 加 减 秒 数 
C 05. für. 
» x.time «- "1 1 1970, 02:00:00" 
» X.time.fmt «- "Xd Xm XY, XH:XM:XS" 
> x.Times «- as.POSIXct(x.time, format = x.time.fmt) 
» x.Times » Sys.time() 
上 述 命令 执行 后 会 返回 TRUE。 
二 、 单 选 题 
( 21. 下列 哪 一 个 函数 ， 可 以 返回 日 期 对 象 是 第 几 季 ? 
A. days () B. months () 
C. weekdays () D. quarters () 
(22. 下 列 哪 一 个 函数 ， 可 以 仅 返回 目前 的 系统 日 期 ? 
A. as.Date () B. Sys.localeconv () 
C. Sys.Date () D. Sys.time () 
(  ) 3. 下 列 哪 一 个 函数 ， 可 以 返回 目前 的 系统 时 间 ? 
A. as.Date () B. Sys.localeconv () 
C. Sys.Date () D. Sys.time () 
( 24. 有 如 下 两 个 命令 。 
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> num «- c(222222, 333333, 444444, 555555) 
» num.info «- ts(num, start - 2015, frequency - 1) 


下 列 哪 一 项 的 说 法 是 错 的 ? 
A. 时 间 序 列 对 象 的 最 后 一 个 数据 是 2018 年 的 
B. 时 间 序 列 频率 是 1 天 
C. 时 间 序 列 对 象 的 第 一 个 数据 是 2015 年 的 
D. 上 述 num 向 量 代表 4 年 的 数据 

) 5， 有 如 下 两 个 命令 。 


> num «- c(240, 250, 272, 263, 255, 261) 
> num.info <- ts(num, start = c(2016, 1), frequency = 12) 


下 列 哪 一 项 的 说 法 是 错 的 ? 
A. 时 间 序 列 对 象 的 第 一 个 数据 是 2016 年 1 月 的 
B. 时 间 序 列 对 象 的 最 后 一 个 数据 是 2016 年 6 月 的 
C. 时 间 序 列 的 频率 是 12 天 
D. 上述 num 向 量 有 6 个 月 的 数据 

) 6， 有 如 下 两 个 命令 。 


> x.date <- as.Date("2016-01-01") 
> x.Ndate <- seq(x.date, by = "1 months", length.out = 6) 


请 问 执行 下 列 命令 可 以 得 到 什么 结果 ? 





> x.Ndate[2] 
A. [1] "2016-01-01" B. [1] "2016-02-01" 
C. [1] "2016-05-01" D. [1] "2016-04-01" 
三 、 多 选 题 
) 1， 在 使 用 as.POSIXet () 和 as.POSIXlt () 函数 时 ， 下 列 哪些 格式 代码 与 小 时 数 有 关 ? (3X 
择 两 项 ) 
A. %H B. %I C. 96M D. %S E. %p 


四 、 实 际 操作 题 ( 如 果 题 目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 


1. 


2. 


i 
4. 


请 建立 自己 国家 每 年 人 口 出 生 数 量 的 时 间 数 列 ， 共 30 年 的 数据 。 

请 挑选 3 只 股票 ， 记 录 每 季 季 初 的 股票 价格 ,记录 5 年 ， 然 后 建立 时 间 序 列 。 
请 挑选 3 个 水 库 ， 记 录 每 月 月 初 的 水 位 ， 记 录 2 年 ， 然 后 建立 时 间 序 列 。 

请 记录 自己 每 天 的 花费 ， 记 录 一 整个 月 ， 然 后 建立 时 间 序 列 。 
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R 语言 一 一 迈 向 大 数据 之 路 


学 习 了 前 面 10 章 内 容 ， 可 以 发 现 R 语言 一 个 很 大 的 特色 是 拥有 丰富 的 内 建 函 数 ， 或 一 些 R 
语言 专家 提供 的 额外 的 数据 集 ( 在 这 些 数据 集中 ,也 包含 一 系列 有 用 的 函数 ) 供 使 用 。 但 在 真实 
的 程序 设计 环境 中 ,那些 内 建 或 额外 数据 集 的 函数 依旧 无 法 满足 程序 设计 师 的 需求 。 因 此 ， 若 想 
成 为 一 个 合格 的 R 语言 
写 自己 的 函数 是 必要 的 。 





数据 分 析 师 ( Data Analyst ) 或 大 数据 工程 师 ( Big Data Engineer ), 学 习 编 
正式 编写 程序 


在 前 面 章 节 中 ， 我们 使 用 了 R 语言 的 直译 器 ( Interpretor ) 功能 ， 在 RStudio 窗口 左下 方 的 
Console 窗口 的 代码 区 输入 代码 ， 立 即 可 在 此 窗口 获得 执行 结果 。 从 现在 起 ， 我 们 将 在 RStudio 窗 
口 左上 方 的 Source 窗口 编辑 所 有 程序 代码 ， 然 后 储存 ， 最 后 再 编译 和 执行 。 


函数 的 基本 组 成 
D 


所 谓 的 函数 ， 其 实 就 是 一 系列 代码 叙述 所 组 成 ， 它 的 目的 有 以 下 两 个 。 
易 。 
2) 


当 我 们 在 设计 一 个 大 型 程序 时 ， 若 是 能 将 这 些 程序 依照 功能 ， 分 割 成 较 小 的 功能 ， 然 后 依照 


这 些小 功能 的 要 求 ， 编 写 函 数 ， 如 次 不 仅 使 程序 简单 化 ， 同 时 也 使 得 最 后 程序 的 检 错 变 得 容 


在 一 个 程序 中 ， 也 许 会 发 生 某 些 功能 ( 由 相同 的 一 系列 代码 组 成 )， 被 重复 的 书写 在 程序 各 个 
主 程序 


不 同 的 地 方 ， 若 是 我 们 能 将 这 些 重复 的 代码 编写 成 一 个 函数 ,需要 时 再 加 以 调用 ， 如此， 不 
仅 减少 编辑 程序 的 时 间 ， 同 时 更 可 使 程序 精简 、 清 晰 和 易 履 ， 如 下 图 所 示 











主 程序 调用 函数 图 
A 
到 原 程序 的 执行 位 置 ， 然 后 继续 往 下 运行 程序 。 


当 一 个 程序 调用 一 个 函数 时 ，R 语言 会 自动 跳 到 被 调用 的 函数 上 运行 程序 ， 调 用 完 后 
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设计 第 一 个 函数 


在 正式 讨论 设计 函数 前 ， 笔 者 先 介绍 一 个 实例 。 
实例 ch11_1.R : 设计 一 个 可 以 计算 百分比 的 程序 ， 同 时 使 用 四 舍 五 人 ， 保 留 到 小 数 点 后 第 2 位 ， 
代码 如 下 所 示 。 


Tus 
2 # 实例 chll_1.R 
53 s 
4 x<- c(0.8932, 0.2345, 0.07641, 0.77351) # 设 定数 值 向 量 
5 x.percent <- round(x * 100, digits = 2) "571618 
6 x.final <- paste(x.percent, sep = "", "X") "mrast 
7 print(x.final) ## 打 印 结果 
[ 执行 结果 ] 


> source('-/Rbook/chll/ch11 1.R') 
[1] "89.32%" "23.45%" "7.64%" "77.35%" 
- 


在 执行 结果 的 第 1 行 ， 你 可 以 单 击 在 RStudio 窗口 左上 角 Source GE OAY “Source” fif, HI 
可 产生 “source ( * -/Rbook/chll/chll. L.R' ,相当 于 运行 此 程序 。 上 述 实例 的 第 5 行 笔者 使 用 了 
round () 函数 ， 由 于 要 计算 百分比 ， 所 以 先 将 数值 向 量 乘 以 100。 笔 者 将 这 个 函数 的 第 2 个 参数 设 
为 2， 表 示 可 将 数值 计算 到 小 数 点 后 第 2 位 。 对 于 第 2 个 参数 笔者 省 略 了 digits, ， 这 个 地 方 也 可 写 
成 “digits = 2", EZ round () 函数 的 用 法 可 参考 第 3 章 的 3-2-8 节 。 程 序 的 第 6 行 ， 主 要 是 将 计 
算 结果 加 上 “%” 百 分 比 符号 ， 同时， 计算 结果 和 百分比 符号 间 没 有 空格 。 在 前 10 章 中 ,直接 在 
R 的 Console 窗口 输入 向 量 ， 例如,，“x.final”"， 可 以 在 Console 窗口 直接 获得 执行 结果 ,但 使 用 R 
的 编译 程序 ， 必 须 将 欲 输出 的 结果 放 在 print O 函数 内 ， 利 用 print O 函数 输出 执行 结果 。 由 上 述 
执行 结果 ， 可 以 发 现 ， 这 个 程序 的 确 获 得 了 我 们 想 要 的 结果 。 

上 述 程序 最 大 的 不 便 之 处 在 于 ， 如 果 我 们 有 其 他 一 系列 数据 要 处 理 ， 则 要 修改 程序 第 4 行 的 
数值 向 量 。 接 下 来 笔者 将 介绍 如 何 编写 自己 的 函数 ,来 改良 此 缺点 ， 函 数 格式 如 下 所 示 。 

函数 名 称 <- function ( 参数 1, 参数 2,… ) ( 

程序 代码 

程序 代码 


} 

有 的 了 语言 程序 设计 师 喜 欢 让 程序 看 来 清爽 ， 同 时 容易 阅读 ， 会 将 function 叙述 右边 的 左 大 
括号 独立 放 在 1 行 ， 如 下 所 示 。 

函数 名 称 < 一 function ( 参数 1, 参数 2,… ) 
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实例 ch11_2.R : 设计 一 个 可 将 数值 向 量 转 成 百分比 的 函数 ， 同 时 用 四 舍 五 人 计算 到 小 数 点 后 第 2 
位 ， 函 数 名 称 是 ch11_2 ()。 














Le: 
2 # 实例 chl1_2.R 
3 # 
4 chll_2 <- function( x ) 
Ext 
6 x.percent «- round(x * 100, digits - 2) # 执 行 转换 
x.final <- paste(x.percent, sep ="","%")  # 加 上 百分比 
8 return(x.final) # 返 回 
9 ) 
[执行 结果 ] 


> source('-/Rbook/ch11/ch11 2.R') 

> new.x <- c(0.8932, 0.2345, 0.07641, 0.77351) 
> chll 2(new.x) 

[1] "89.32%" "23.45%" "7.64%" "77.35%" 

> 


在 上 述 执行 结果 中 ,执行 source O 后 ， 所 设计 的 函数 ch11_2 O 已 被 加 载 ， 所 以 以 后 我 们 可 
以 自由 使 用 这 个 函数 。 


EE 函数 也 是 一 个 对 象 


其 实 函数 也 是 一 个 对 象 ， 例 如 ， 在 Console 窗口 直接 输入 对 象 名 称 ， 可 以 看 到 此 对 象 的 内 容 ， 
在 此 例 可 以 看 到 函数 的 程序 代码 ， 如 下 所 示 。 


> chll_2 

function( x ) 

1 
x.percent «- round(x * 100, digits = 2) HARSHR 
x.final <- paste(x.percent, sep = "", "X")  # 加 上 百分比 
return(x.final) siis] 


需要 特别 要 注意 的 是 ,不 可 加 “()” 号 ,， 若 加 上 “()” 括 号 ， 则 表示 引用 此 函数 ， 此 时 必须 有 
参数 在 “()” 括 号 内 ， 和 否则 会 有 错误 产生 。 
我 们 也 可 以 设 定 一 个 新 的 对 象 等 于 这 个 函数 对 象 ， 可 参考 下 列 实例 。 
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> convert.percent <- chi1 2 
> 


上 述 代码 执行 后 ，convert.percent 将 是 一 个 与 ch11_2 相同 内 容 的 函数 对 象 ， 如 下 所 示 。 


> convert.percent 
function( x ) 


1 
x.percent «- round(x * 100, digits = 2) MAGMEHR 
x.final <- paste(x.percent, sep = "", "X")  # 加 上 百分比 
return(x. final) ## 返 回 

} 


R 语言 这 个 功能 虽然 好 用 ， 但 风险 是 若是 不 小 心 设 一 个 与 这 个 函数 相同 的 变量 名 称 ， 此 时 ， 
这 个 函数 就 会 被 系统 删除 。 例 如 ， 笔 者 不 小 心 将 一 个 数值 向 量 设 给 此 函数 对 象 convert.percent， 如 
下 所 示 。 


> convert.percent «- c(12, 18) 
> 


此 时 再 输入 一 次 此 对 象 convert.percent， 可 以 发 现 对 象 内 容 已 被 改 成 数值 向 量 了 ， 如 下 所 示 。 
> convert.percent 
[1] 12 18 


所 以 为 对 象 取 名 字 时 是 要 小 心 ， 尽 量 避 免 出 现 相同 的 名 字 。 


程序 代码 的 简化 


其 实 对 于 程序 实例 ch11_2.R 而 言 ， 最 后 一 行 的 “return Cx.final )” 是 可 以 省 略 的 ，R 语言 
认 是 会 传 回 最 后 一 行程 序 代 码 的 值 ， 可 参考 实例 ch11_3.R。 
实例 ch11_3.R : 重新 设计 实例 ch11_2.R， 这 个 实例 将 省 略 “return ( xfinal )”。 


1 s 
2 大 实 例 ch11_3.R 
3 # 
4 chll_3 <- function( x ) 
Ext 
6 x.percent «- round(x * 100, digits = 2) # 执 行 转换 
7 x.final <- paste(x.percent, sep = ""，"%")  # 加 上 百分比 
8 } 
[ 执行 结果 ] 


> source('-/Rbook/chll/ch11 3.R') 
> chl1l 3(new.x) 
- 


上 述 执行 结果 什么 也 没 看 到 ， 原 因 是 ch11 3 O 函数 的 最 后 一 行 ， 只 是 将 转换 结果 的 百分比 设 
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定 给 “xfinal”， 所 以 没 看 到 任何 结果 。 但 是 执行 上 述 程序 后 ， 事 实 上 ， 整 个 所 设计 的 ch11.3 O FR 
数 已 经 被 加 载 RStudio 窗口 的 Workspace 工作 区 ， 如 果 想 看 到 执行 结果 ,在 RStudio 窗口 的 Console 
窗口 可 使 用 print () 函数 ， 可 参考 下 列 执行 结果 。 


> print(chll 3(new.x)) 
[1] "89.32%" "23.45%" "7.64%" "77.35%" 
> 


由 上 述 执行 结果 可 知 ， 该 程序 的 确 获得 我 们 所 想 要 的 结果 了 。 
实例 ch11_4.R : 改良 版 的 ch11_3.R， 差 别 在 于 程序 的 第 7 行 ， 省 略 了 设 定 给 “xfinal” 的 动作 ， 
这 样 又 可 以 获得 ch11_2.R 的 结果 。 


Du y 
2 # 实例 Chill_4.R 
JL 
4 chll4 <- function( x ) 
5-t 
6 x.percent «- round(x * 100, digits = 2) # 执 行 转 换 
7 paste(x.percent, sep = "", "%") # 加 上 百分比 并 输出 
8 ) 
[执行 结果 ] 
> Ssource('-/Rbook/ch11/ch11 4.R') 
> chll 4(new.x) 


[1] "89.32%" "23.45%" "7.64%" "77.35%" 
> 


return () 的 功能 


看 了 前 几 节 的 叙述 ， 好 像 retur O 是 多 余 的 ， 非 也 。 函 数 在 运行 时 ， 有 时 会 面临 某 些 状 况 的 
发 生 ， 需 要 提早 结束 函数 ,不 再 往 下 执行 。 
实例 ch11_5.R : 设计 检测 所 输入 的 参数 是 否 是 数值 向 量 ， 如 果 不 是 则 输出 非 数 值 向 量 ， 函 数 结 
RAIT 


1 # 

2 # 实例 ch1l1_5.R 

3 # 

4 chll_5 <- function( x ) 

5- t 

6 if C lis.numericOO) 

nas t 

8 print(" fi f£ A S (& (9 IE") 

9 return(NULL) 

10 } 

11 x.percent <- round(x * 100, digits = 2) 15,17 56 1 
12 paste(x.percent, sep = "", "X") ## 加 上 百分比 并 输出 
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[执行 结果 ] 


> source('-/Rbook/chll/ch11 5.R') 

> chili 5(new.x) 

[1] "89.32%" "23.45%" "7.64%" "77.35%" 
» chili 5(cC"A", "B", "C")) 

[1] “ 需 传 入 数值 向 量 ” 

NULL 


在 这 个 实例 中 ， 笔 者 使 用 了 2 组 数据 做 测试 ， 一 组 是 原先 所 用 的 数值 向 量 “new.x”， 我 们 获 
得 了 想 要 的 结果 。 另 一 组 是 字符 向 量 , 我们 被 通知 “ 需 传 人 数值 向 量 ”。 

这 个 程序 多 了 一 个 让 语句 ,第 6 行 到 第 10 行 ， 主 要 是 检查 所 传人 的 向 量 是 否 是 数值 向 量 ， 
如 果 不 是 则 输出 “ 需 传 人 数值 向 量 ”， 然 后 函数 执行 return ()， 函 数 结束 执行 。 有 关 更 多 的 逻辑 判 
断 ， 笔 者 将 在 第 12 章 作 完整 的 说 明 。 


省 略 函数 的 大 括号 


在 本 章 的 第 11-3 节 介绍 设计 第 1 个 函数 时 ， 曾 介绍 函数 主体 是 用 大 括号 (“{” 和 “}”) 括 起 
来 的 。 其 实 ， 如 果 函 数 主体 只 有 1 行 ， 那么 也 可 以 省 略 大 括号 ， 可 参考 下 列 实例 。 
实例 ch11_6.R : 省 略 大 括号 的 函数 设计 ， 本 函数 可 输出 数值 向 量 的 平方 。 


1 # 

2 # 实例 ch11_6.R 

3 t 

4 chll_6 <- function x 2 x * x 
[执行 结果 ] 


> sourceÇ'~/Rbook/ch11/ch11_6.R') 
> number.x «- c(9, 11, 5) 

> chil 6(number.x) 

[1] 81121 25 

> 


上 述 程 序 其 实 只 有 1 行 ( 即 第 4 行 )， 很 明显 没有 大 括号 ， 也 没有 return(), 但 是 它 仍 是 一 个 
完整 的 函数 。 所 以 在 设计 程序 时 ， 如 果 函 数 只 有 1 行 ， 是 可 以 省 略 大 括号 的 。 碰 上 这 类 状况 ，R 
编译 程序 会 将 function O 右边 的 程序 代码 当 作 函数 主体 。 了 解 这 个 设计 原则 后 ,我 们 也 可 以 重新 
设计 ch11_4.R。 
实例 ch11_7.R : 排 函 数 主体 只 有 1 行 的 方式 ， 重 新 设计 ch11_4.R。 





1 s 

2 # 实例 ch1l1_7.R 

3 # 

4 chll_7 <- function( x ) paste(round(x * 100, digits = 2), sep = "", "X") 
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[执行 结果 ] 


> source('-/Rbook/ch1l1/chll 7.R') 
> chll 7(new.x) 
[1] "89.32%" "23.45%" "7.64%" "77.35%" 


在 这 个 程序 中 ， 函 数 主体 也 是 只 有 1 行 ( 即 第 4 行 ) 我 们 获得 了 和 ch11_4.R 相同 的 结果 。 
不 过 坦白 讲 ,实例 ch11_4.R 是 更 容易 阅读 的 ， 即 使 过 了 一 段 时 间 后 ， 重 新 看 也 是 可 以 很 快速 地 了 
解 每 行程 序 代码 的 意义 。 实 例 ch11_7.R 尽管 使 程序 代码 精简 了 ， 但 是 过 一 段 时 间 ， 这 个 程序 代码 
是 需 花 较 多 的 时 间 去 了 解 的 。 

笔者 建议 ， 写 程序 不 仅 是 现在 容易 阅读 ， 也 期 待 将 来 可 以 容易 阅读 。 并 且 ， 如 果 设计 大 型 项 
目 ， 一 个 大 程序 可 能 需要 由 许多 人 完成 ， 这 时 更 要 考虑 他 人 也 要 容易 阅读 ， 所 以 不 需要 为 了 缩短 
程序 代码 的 长 度 ， 将 需要 多 行 完 成 的 程序 代码 缩减 ， 造 成 阅读 困难 。 读 者 应 该 有 留意 到 ， 从 11 章 
开始 ， 笔 者 在 程序 代码 前 3 列 ， 注 明了 程序 编号 ， 这 也 是 为 了 读者 阅读 方便 ， 在 未 来 ， 有 需要 的 
地 方 ， 笔 者 也 会 增加 注释 数量 ， 甚 至 是 增加 程序 代码 ， 一 切 一 切 均 是 为 了 读者 方便 阅读 。 


i: 传递 多 个 函数 参数 的 应 用 


如 果 想 要 传递 多 个 参数 ， 那 么 只 要 将 新 的 参数 放 在 function O 的 括号 内 ， 各 参数 间 彼 此 用 去 
号 隔 开 即 可 。 


11-8-1 设计 可 传递 两 个 参数 的 函数 


实例 ch11_8.R : 同样 是 将 数值 向 量 转 换 成 百分比 ， 但 此 函数 要 求 有 两 个 参数 ， 第 1 个 参数 是 欲 转 
换 的 数值 向 量 ,第 2 个 参数 是 设 定 百分比 有 几 位 小 数 。 


SL 
2 # 实例 ch1l1_8.R 
3 # 
4 chll_8 <- function( x, x.digits) 
53 tf 
6 x.percent «- round(x * 100, digits = x.digits) # 执 行 转 换 
7 paste(x.percent, sep = "", "X") # 加 上 百分比 并 输出 
8 } 
[执行 结果 ] 


> source('~/Rbook/chll/ch11_8.R') 
> chll_8Cnew.x，0) 

[1] "89%" "23%" "EX" "77%" 

> ch11_8(new.x, x.digits = 0) 

[1] "89%" "23%" "8X" "77%" 
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> ch11_8(new.x, 2) 

[1] "89.32%" "23.45%" "7.64%" "77.35%" 
> ch11_8(new.x, x.digits = 2) 

[1] "89.32%" "23.45%" "7.64%" "77.35%" 


在 第 3 章 的 实例 ch3_13， 笔 者 曾 讲解 调用 round O 函数 时 ， 第 2 个 参数 可 放 “digits =", 也 
可 以 不 放 。 在 笔者 设计 的 实例 中 ， 一样 在 调用 chll 8 O 函数 时 ， 可 放 “x.digits =”， 也 可 不 放 。 
HX R 语言 对 于 在 调用 函数 时 ， 依 照 参数 顺序 传递 参数 的 情况 ， 是 不 要 求 指定 参数 名 称 。 

一 个 有 趣 的 探究 ， 在 传递 参数 时 ， 以 上 述 实 例 ch11_8.R 为 例 ， 如 果 发 生 参 数位 置 错乱 ， 会 如 
何 呢 ? 可 参考 下 列 运行 结果 。 


> ch11_8(x.digits = 2, new.x) 
[1] "89.32%" "23.45%" "7.64%" "77.35%" 
> 


在 上 述 代 码 中 ,由 于 有 特别 标明 第 1 个 参数 是 “x.digits”"， 所 以 程序 可 正常 运行 。 如 果 参 数位 
置 错 乱 ， 同 时 又 不 表明 参数 所 代表 的 意义 ， 则 结果 会 产生 错乱 ， 如 下 所 示 。 

> chil 8(2, new.x) 

[1] "200%" "200%" "200%" "200%" 


11-8-2 ”月 数 参 数 的 默认 值 


对 于 实例 ch11_8.R 而 言 ， 如 果 在 调用 ch11_8 O 函数 时 ， 只 输入 数值 向 量 , 漏 了 输入 第 2 个 
参数 ， 结 果 会 如 何 呢 ? 如 下 所 示 ， 首 先 我 们 先 看 round O 函数 ,假设 输入 数字 ， 不 注 明 计算 到 小 
数 点 后 第 几 位 ， 结 果 会 如 何 ? 


> round(21.45) 
[1] 21 
> 


由 上 述 执 行 结果 可 知 round. O 函数 碰 上 这 类 状况 ， 会 将 此 参数 默认 为 0， 相当 于 产生 整数 。 
同样 情况 ， 对 于 实例 ch11_8.R 由 于 程序 第 6 行 是 调用 round. O 函数 ， 所 以 对 于 实例 ch11_8.R， 如 果 
调用 chll 8 O 函数 时 第 2 个 参数 省 略 ， 将 产生 不 含 小 数 的 百分比 结果 ， 可 参考 下 列 执行 结果 。 

> chl1_8Cnew.x) 

[1] "89x" "233" "SX" "77€" 
实例 ch11_9.R : 重新 设计 实例 ch11_8.R， 使 执行 这 个 实例 时 ， 如 果 不 传递 第 2 个 参数 来 设 定 产生 
保留 到 小 数 点 后 第 几 位 的 百分比 ， 则 自动 产生 保留 1 位 小 数 的 百分比 。 





1 s 

2 # 实例 ch1l1_9.R 

3 * 

4 chll_9 <- function( x, x.digits = 1) GASES EL 
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5-t 
6 x.percent <- round(x * 100, digits = x.digits) # 执 行 转换 
7 paste(x.percent, sep = "", "X" 0n ESOS 
8 ) 
[执行 结果 ] 


> source('-/Rbook/ch1l/chll 9.R') 
> chll 9(new.x) 

[1] "89.3%" "23.4%" "7.6%" "77.4%" 
> chill 9(new.x, 1) 

[1] "89.3%" "23.4%" "7.6%" "77.4%" 
> 


11-8-3 3 点 参数 “...” 的 使 用 


在 本 章 的 11-8-1 节 ， 我 们 学 会 了 如 何 设计 传递 2 个 参数 的 函数 。 实 际 上 在 设计 函数 时 会 碰 上 
需 传递 更 多 参数 的 情况 ， 如 果 参 数 一 多 ， 会 使 设计 的 function O 的 参数 列 变 得 很 长 ， 以 后 调用 时 
的 参数 列 也 会 很 长 ， 碰 上 这 类 情况 ，R 语言 提供 了 3 点 参数 “. . .” 的 概念 ， 这 种 3 点 参数 通常 会 
放 在 参数 列表 的 最 后 面 。 

在 正式 讲解 3 点 参数 实例 前 ， 我 们 先 改写 实例 ch11_9.R， 将 实例 改写 成 ， 如 果 不 输入 第 2 个 
参数 ， 将 产生 不 带 小 数 的 百分比 。 
实例 ch11_10.R : 将 实例 ch11 9.R 改 一 下 ， 如 果 不 输入 第 2 个 参数 ， 将 产生 不 带 小 数 的 百分比 。 


5L 
2 # 实例 ch11_10.R 
-i Ed 
4 chil_10 <- function( x, x.digits = 0) ## 默 认 转 换 到 小 数 第 0 位 
5- t1 
6 x.percent «- round(x * 100, digits = x.digits) # 执 行 转换 
7 paste(x.percent, sep = "", "X" # 加 上 百分比 符号 并 输出 
BE 3? 
[执行 结果 ] 


> source('~/Rbook/chil/ch11_10.R') 

> chil 10(new.x) 

[1] "89%" "23x" "8X" "77%" 

> chil 10(new.x, 2) 

[1] "89.32%" "23.45%" "7.64%" "77.35%" 
> chll_10Cnew.x，x.digits = 2) 

[1] "89.32%" "23.45%" "7.64%" "77.35%" 
> 


接 下 来 我 们 可 用 3 点 参数 改写 上 述 实例 ch11_10.R， 可 参考 下 列 实例 。 
实例 ch11_11.R : 使 用 3 点 参数 改写 上 述 实例 ch11_10.R， 如 果 不 输入 第 2 个 参数 ， 将 产生 不 带 
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小 数 的 百分比 。 
1 # 
2 # 实例 chl1_11.R 
B s 
4 chili 11 <- function( x, ...) 3 默认 转换 成 不 带 小 数 的 整数 
5-t 
6 x.percent «- round(x * 100, ...) # 执 行 转换 
7 paste(x.percent, sep = "", "X") 大 加 上 百分比 符号 并 输出 
8 } 
[执行 结果 ] 


> source('-/Rbook/ch11/chl11 11.R') 

> chl1 11(new.x) 

[1] "89%" "23%" "8%" "77%" 

由 上 述 执行 结果 ， 可 以 看 到 我 们 成 功 地 设计 了 带 有 3 点 参数 “. . .” 的 函数 了 ， 但 应 该 如 何 指 
定 第 2 个 参数 呢 ? 如 果 第 2 个 参数 直接 放 数 字 是 可 以 的 ， 如 下 所 示 。 


> chll_1ll(new.x, 2) 
[1] "89.32%" "23.45%" "7.64%" "77.35%" 
> 


如 果 想 要 给 第 2 个 参数 指定 参数 名 称 就 要 小 心 了 ， 对 于 实例 chll_10.R 而 言 ， 我 们 在 设计 
时 ， 程 序 的 第 4 行 在 function O 的 参数 行内 ， 指 定 参数 名 称 是 “x.digits"， 在 程序 的 第 6 行 的 
round () 函数 内 ， 我们 是 将 “x.digits” 指 定 给 round. O 函数 内 的 参数 “digits”， 所 以 调用 实例 
chll 10.R 的 函数 时 ,使 用 下 列 方式 “x.digits = 2” 给 第 2 个 参数 赋值 是 可 以 的 。 


> ch11_10(new.x, x.digits = 2) 
[1] "89.32%" "23.45%" "7.64%" "77.35%" 
> 


在 实例 ch11_10.R 中 ， 如 果 使 用 “digits = 2” 给 第 2 个 参数 赋值 会 有 错误 产生 。 


> chil 10(new.x, digits = 2) 
Error in chll 10(new.x, digits = 2) : unused argument (digits = 2) 
- 


但 是 在 实例 ch1l_11.R 中 ,我 们 使 用 3 点 参数 ， 程 序 第 4 行 的 function O 函数 的 第 2 个 参数 
使 用 3 点 参数 “. ..” 取 代 ， 程序 第 6 行 的 round O 函数 也 使 用 3 点 参数 ”. . .” 取 代 ， 这 时 没有 看 
到 “x.digits” 参 数 ， 所 以 在 执行 chll_11.R 后 ， 如 果 想 调用 函数 ， 若 是 使 用 参数 名 “x.digit",， 将 
产生 错误 ， 如 下 所 示 。 


> chll 11(new.x, x.digits = 2) 
Error in round(x * 100, ...) : unused argument (x.digits = 2) 


如 果 在 调用 时 要 使 用 参数 名 的 话 ， 需 使 用 “digits”， 这 是 因为 round O 函数 默认 所 使 用 的 参 
数 名 就 是 “digits”"， 如 下 所 示 。 
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> chil l1(new.x, digits = 2) 
[1] "89.32%" "23.45%" "7.64%" "77.35%" 
> 


函数 也 可 以 作为 参数 
在 本 章 的 11-4 节 中 笔者 曾经 介绍 函数 也 可 以 是 一 个 对 象 ， 我 们 可 以 将 一 个 函数 的 整个 程序 代 


W, 赋予 男 一 个 对 象 ， 当 了 解 这 个 概念 后 ， 就 可 很 容易 理解 函数 是 可 以 作为 参数 的 。 


11-9-1 正式 实例 应 用 

在 第 3 章 的 3-2-8 节 笔 者 曾 介绍 signif O 函数 ， 这 个 函数 的 第 2 个 参数 digits 主要 是 指定 数 
值 从 左 到 右 有 效 数字 的 个 数 ， 剩 余数 字 则 四 舍 五 人， 笔者 将 用 这 个 函数 当 作 传 递 的 参数 做 解说 。 
实例 ch11_12.R : 函数 也 可 以 作为 传递 参数 的 应 用 。 


1 # 
2 # 实例 ch1l1_12.R 
3 # 调用 时 ， 若 省 略 第 2 个 参数 ， 默 认 是 调用 roundC 7 函数 
4 " 
5 chii 12 <- function( x, Xfun = round, ...) 
6-t 
7 x.percent «- Xfun(x * 100, ...) # 执 行 转 换 
8 paste(x.percent, sep = "", "X") ## 加 上 百分比 符号 并 输出 
9 ) 
[执行 结果 ] 


> source('^/Rbook/ch11/chll 12.R') 
> chll 12(new.x) 

[1] "89%" "23%" "8X" "77%" 

> 


在 上 述 程序 的 设计 中 , 第 5 行 的 function O 内 的 第 2 个 参数 是 Xfun， 这 个 参数 Xfun 默认 的 
是 round () 函数 的 程序 代码 ， 如 果 调 用 时 省 略 第 2 个 参数 ， 则 第 7 行 的 Xfun 用 round 取代 。 若 以 
上 述 程序 为 例 ， 上述 程 序 在 执行 时 ， 由 于 chill 12 O 内 没有 放 函 数 参数 ， 所 以 Xfun 使 用 默认 的 
round () 函数 参数 ， 而 得 到 上 述 执行 结果 。 如 果 调 用 函数 时 第 2 个 参数 有 放 函 数 ， 则 此 参数 函数 
将 取代 第 7 列 的 Xfun ()， 下 列 是 使 用 signif O 当 作 参 数 的 实例 。 


> ch11_12(new.x, signif, digits = 3) 
[1] "89.3%" "23.4%" "7.64%" "77.4%" 

> ch11_12(new.x, signif, digits = 4) 
[1] "89.32%" "23.45%" "7.641%" "77.35%" 
> 
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11-9-2 以 函数 的 程序 代码 作为 参数 传送 
R 语言 既 可 支持 将 函数 当 作 参 数 传递 ， 也 可 支持 将 函数 的 程序 代码 当 作 参 数 传递 ， 这 类 传递 


程序 代码 而 不 传递 函数 名 的 方式 ， 被 称 为 





匿名 函数 ( Anonymous Function )。 


实例 ch11_13.R : 假设 一 家 公司 有 3 个 部 门 ， 去 年 各 部 门 的 型 利 分 别 是 8500 元 、6700 元 和 9200 
元 ， 请 计算 各 部 门 鳃 利 的 百分比 。 其 实 这 个 程序 可 以 沿用 ch11_12.R， 但 是 笔者 适度 地 调整 了 第 


4 行 的 函数 名 称 。 
1 s 
2 # 实例 ch11_13.R 
3 # 
4 chll_13 <- function( x, Xfun = round, ...) 
5-t( 
6 x.percent «- Xfun(x * 100, ...) # 执 行 转换 
7 paste(x.percent, sep = "", "X") # 加 上 百分比 符号 并 输出 
8 } 
[ 执行 结果 ] 
> source('-/Rbook/ch11/ch11 13.R') 
» y «- c(8500, 6700, 9200) ER SL SERLO R M e) IE 


> chili 13(y, Xfun = function(x) round(x * 100 / sum(x))) #147 


[1] "35x" "27%" "38%" 


»- 


在 上 述 实例 中 ， 以 下 函数 的 程序 代码 已 被 当 作 参数 传递 了 。 


function(x) round(x * 100 / sum(x)) 


以 上 实例 其 实 主要 是 用 于 讲解 如 何 将 函数 码 当 作 参 数 传送 ， 对 上 述 实例 ， 我 们 可 以 用 很 简洁 


的 方式 完成 工作 的 。 


> chili 13(y / sum(y)) 
[1] "35%" "27%" "38%" 
> 


m 局 部 变量 和 全 局 变量 


设计 一 个 大 型 项 目 时 ， 通 常会 由 多 人 参与 此 计划 ,许多 人 在 设计 个 别 程序 时 可 能 会 用 到 相同 
的 变量 名 称 , 这 时 难免 会 碰 上 问题 , A 所 用 的 变量 数据 会 不 会 被 B 误 用 ? 这 也 是 本 节 讨论 的 重点 。 

其 实 对 于 一 个 函数 而 言 ， 这 个 函数 内 部 所 使 用 的 变量 称 局 部 变量 ( Local Variable )， 程 序 整体 
所 使 用 的 变量 会 在 Workspace 窗口 内 看 到 ， 称 全 局 变量 (Global Variable )。 对 于 函数 所 属 的 局 部 


变量 而 言 ， 函 数 调用 结束 变量 就 消失 了 。 
随时 可 调用 。 


对 于 全 局 变量 而 言 ， 只 要 在 Workspace 窗口 内 保存 ， 就 
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实例 ch11_14 : 局 部 变量 和 全 局 变量 的 探究 。 


实例 chll_14.R 


<- 1:8 HEISE 
rint( "调用 函数 前 "7 

rint(x) 水 打印 全 局 变量 Xx 
est «- function(y) 


" 


m CO CD OX Gu RE 


print" HA E") 

x <- y 

11 printCx) # 打 印 局 部 变量 x 
12 print(" 离 开 函 数 ") 

人 

14 test(1:5) # 调 用 函数 

15 print(" 调 用 函数 后 ") 

16 printCx) # 打 印 全 局 变量 


H 
€ 00 O0 Ui UN P 


[执行 结果 ] 


> Ssource('-/Rbook/ch11/ch11 14.R') 
[1] "UBER" 
(1012345678 

[1] "ŽAR" 

[1] 12345 

[1] "ARAK" 

[ 雹 “调用 函数 后 ” 
[J12345678 


在 这 个 实例 中 ， 笔 者 特别 将 变量 取 名 x， 对 于 程序 的 第 6 行 ， 毫 无 疑问 是 打印 全 局 变量 的 x, 
第 7 行 至 13 行 是 函数 test， 第 10 行 是 将 所 传递 给 函数 的 变量 y 赋 给 局 部 变量 x， 第 11 行 是 打印 
局 部 变量 x。 第 14 行 是 调用 函数 ， 所 以 会 执行 打印 第 11 行 的 局 部 变量 。 在 第 15 行 笔者 再 打印 一 
次 变量 x， 读 者 可 以 比较 它们 之 间 的 差别 。 其 实 如 果 我 们 观察 Workspace 窗口 ， 可 以 看 到 执行 上 述 
实例 chll 4.R 后 ， 全 局 变量 x， 就 一 直 是 1:8， 可 参考 下 图 。 











dh Global Environment - n Q 
profits num [1:3] 8500 6700 9200 
x int [1:8] 1234 56 7 8 





(EIE 通用 函数 ( Generic Function ) 


何 为 通用 函数 ( Generic Function ) ? 如 果 一 个 函数 接收 到 参数 后 ， 什 么 事 都 不 做 ， 只 是 将 工 
作 分 配 其 他 函数 执行 ， 这 类 函数 被 称 为 通用 函数 ( Generic Function )。 
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11-11-1 认识 通用 函数 print O 
对 于 R 语言 而 言 ， 其 实 最 常用 的 通用 函数 是 print ()， 下 列 是 print O 函数 的 程序 代码 。 


> print 

function (x, ...) 
UseMethod("print") 

«bytecode: 0x10524c350» 
«environment: namespace:base» 
> 


各 位 可 以 忽略 上 述 程序 代码 的 第 3 行 和 第 4 行 ， 这 是 R 的 开发 人 员 需 使 用 的 信息 。 由 以 上 程 
序 代码 可 知 ，print O 函数 实际 只 有 1 行 ， 也 就 是 第 2 行 UseMethod ()， 这 个 函数 的 主要 功能 就 是 
ib R 依 print () 函数 的 参数 找寻 适当 的 函数 执行 打印 任务 。 我 们 可 以 用 下 列 方法 了 解 有 多 少 函 数 
可 协助 print () 函数 执行 打印 任务 。 

> apropos(C'print\\.') 


[1] "print.AsIs" "print.by" 

[3] "print.condition" "print.connection" 

[5] "print.data.frame" "print.Date" 

[7] "print.default" "print.difftime" 

[9] "print.Dlist" "print.DLLInfo" 

[11] "print.DLLInfoList" "print.DLLRegisteredRoutines" 
[13] "print.factor" "print.function" 

[15] "print.hexmode" "print.libraryIQR" 

[17] "print.listof" "print.NativeRoutineList" 
[19] "print.noquote" "print.numeric version" 
[21] "print.octmode" "print.packageInfo" 

[23] "print.POSIXct" "print.POSIXlt" 

[25] "print.proc time" "print.restart" 

[27] "print.rle" "print.simple.list" 

[29] "print.srcfile" "print.srcref" 

[31] "print.summary.table" "print.summaryDefault" 
[33] "print.table" "print.warnings" 


从 上 述 输出 结果 可 以 了 解 到 共有 34 个 函数 可 供 print O 函数 分 配 使 用 。 笔 者 在 第 7 章 的 
7-1-1 节 曾 建立 mitinfo 数据 框 ( Data Frame )。 下 列 是 使 用 print O 函数 打印 mit.info 数据 框 的 输 
出 结果 。 


> print(mit.info) 
mit.Name mit.Gender mit.Height 


1 Kevin M 170 
2 Peter M 175 
3 Frank M 165 
4 Maggie F 168 
- 


由 “apropos ( 'printW.' )" 的 执行 结果 可 知 第 S Print 函数 是 用 于 打印 数据 框 的 函数 print.data. 
frame ()。 其 实 上 述 print O 函数 是 调用 print.data.frame () 执行 此 打印 mitinfo 数据 框 的 任务 。 所 
以 ， 你 也 可 以 使 用 下 列 方 式 打印 mitinfo 数据 框 。 
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> print.data.frame(mit. info) 


mit.Name mit.Gender mit.Height 


1 Kevin M 170 
2 Peter M 175 
3 Frank M 165 
4 Maggie F 168 


> 


11-11-2 通用 函数 的 默认 函数 


假设 我 们 想 打印 串 行 (List ) 对 象 ， 由 上 一 节理 论 可 知 ， 可 以 使 月 


H print.list () 执行 打印 串 行 





的 任务 ， 结 果 在 “apropos (“print\.” )” 的 执行 中 ， 我 们 找 不 到 print.list O 函数 ， 怎 么 办 ? 事实 
上 许多 通用 函数 在 设计 时 ， 大 都 会 同时 设计 一 个 默认 函数 ， 如 果 没有 特定 的 函数 可 使 用 时 ， 则 调 


用 此 默认 函数 ， 此 例 是 print.default () 
(List ) baskets.Cal 的 输出 结 
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> print(baskets.Cal) 
[E11] 
[1] "California" 


[[2]] 
[1] "2016-2017" 


[[3]] 

1st 2nd 3rd 4th Sth 6th 
Lin 7 8 611 9 12 
Jordon 12 8 9 15 7? 12 


如 果 是 用 print.default () 函数 


> print.default(baskets.Cal) 


cc] 
[1] "California" 


[[2]] 
[1] "2016-2017" 
[[3]] 

1st 2nd 3rd 4th 5th 6th 
Lin 7 8B b au 93 
Jordon i2 8 9 15 7 1i2 


> 


， 那 么 可 以 得 到 相同 的 输出 结果 。 


LUPA 设计 第 一 个 通用 函数 


例如 ， 下 列 是 用 print () 打印 第 8 章 的 实例 ch8_1 的 串 行 


了 解 了 11-11 节 的 内 容 后 ， 本 小 节 笔 者 将 以 实例 介绍 如 何 设 计 一 个 通用 函数 。 
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11-12-1 优化 转换 百分比 函数 


为 了 方便 接 下 来 的 解说 ， 笔 者 将 之 前 chll_13R 的 chll 13 O 函数 改写 成 percentnumeric (), 
如 下 所 示 ， 这 个 函数 的 功能 主要 是 将 数值 向 量 改 写成 百分比 。 读 者 需 特别 留意 的 是 函数 名 称 
“percent”"， 须 加 上 “.”"， HINE “numeric”, UseMethod () 是 用 “numeric” 来 判别 何 时 调用 此 函 
数 的 ,未 来 调用 “perecent” 时 ， 若 所 传递 的 参数 是 数值 时 则 调用 这 个 函数 。 


# 将 数值 向 量 转 成 百分比 
percent.numeric <- function( x, Xfun = round, ...) 


t 
x.percent «- Xfun(x * 100, ...) # 执 行 转 换 
paste(x.percent, sep = "", "X") # 加 上 百分比 符号 并 输出 


如 果 碰 上 输入 的 是 字符 向 量 时 ， 笔 者 希望 以 下 列 函 数 percent.character () 人 处理， 相当 于 
在 字符 右边 加 上 百分比 符号 。 读 者 需 特 别 留意 的 是 函数 名 称 “percent”"， 须 加 上 “.”"， 再 加 上 
"character", UseMethod () 是 用 “character” 来 判别 何 时 调用 此 函数 的 ， 未 来 调用 “percent” 
时 ， 若 所 传递 的 参数 是 字符 时 则 调用 这 个 函数 。 


# 将 字符 向 量 增 加 百分比 符号 
percent.character <- function( x ) 


paste(x, sep = "", "X") # 直 接 加 百分比 符号 
} 


现在 我 们 可 以 将 上 述 2 个 函数 结合 在 实例 ch11_15.R。 
实例 ch11_15.R : 设计 一 个 程序 ， 此 程序 包含 2 个 函数 ， 可 处 理 将 数值 向 量 转换 成 百分比 ， 以 及 
给 字符 向 量 增加 百分比 符号 。 


实例 ch11_15.R 


将 数值 向 量 转 成 百分比 
percent.numeric <- function( x, Xfun = round, ...) 
t 


paste(x.percent, sep = "", "X") # 加 上 百分比 符号 并 输出 


# 将 字符 向 量 增 加 百分比 符号 

percent.character «- function( x ) 
127 { 
13 paste(x, sep = "", "%") *"HiInBeEkwve 
14 ) 


1 
2 
3 
4 
5 
6 
7 x.percent «- Xfun(x * 100, ...) 985,17 5618. 
8 
9 
10 
11 


[ 执行 结果 ] 
> source('-/Rbook/chll/chll 15.R') 
» percent.numeric(new.x) 
[1] "89%" "23%" "8%" "77X" 
> percent.numeric(new.x, round, digits = 2) 
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[1] "89.32%" "23.45%" "7.64%" "77.35%" 
> percent.character(c("A", "B", "C")) 
[1] "AX" "BX" "CX" 


> 


最 后 我 们 需 使 用 UseMethod () 设计 通用 函数 ， 程 序 代 码 如 下 所 示 。 


percent <- function(x, ...) 


UseMethod("percent") 
H 


实例 ch11_16.R : 设计 通用 函数 percent ()， 未 来 可 以 直接 使 用 percent O 调用 执行 想 要 完成 的 
任务 。 


à 
# 实例 ch11_16.R 
# 
percent <- function(x, ...) 
1 

UseMethod("percent") 


l 
8 # 将 数值 向 量 转 成 百分比 
9 percent.numeric <- function( x, Xfun = round, ...) 


10- ( 

11 x.percent «- Xfun(x * 100, ...) # 执 行 转换 

12 paste(x.percent, sep = "", "X") # 加 上 百分比 符号 并 输出 
13 


14 # 将 字符 向 量 增 加 百分比 符号 

15 percent.character <- function( x ) 

16- { 

17 paste(x, sep = "", "X") # 直 接 加 百分比 符号 
18 ) 


[执行 结果 ] 


> source('-/Rbook/ch11/ch11. 16.R') 

> percent(new.x) 

[1] "89%" "23x" "8X" "77%" 

> percent(new.x, round, digits = 2) 

[1] "89.32%" "23.45%" "7.64%" "77.35%" 
> percent(c("A", "B", "C")) 

[1] "AX" "BX" "CX" 

> 


读者 应 该 仔细 比较 ch11_15.R fl ch11 16.R 的 执行 结果 ,特别 是 ch11_16.R 是 用 调用 通用 函数 
( Generic Function ) 的 方式 完成 工作 的 。 


11-12-2 设计 通用 函数 的 默认 函数 


对 于 实例 ch11_16.R 而 言 ， 如 果 输 入 的 不 是 数值 或 字符 ， 执 行 结果 会 有 错误 ,下列 是 输入 数 
据 框 mit.info 对 象 产 生 错 误 的 结果 . 
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> percent(mit.info) 
Error in UseMethod("percent") : 

没有 通用 的 方法 可 将 “percent ”套用 到 “data.frame” 类 别 的 对 象 
> 


建议 在 设计 通用 函数 时 同时 设计 一 个 默认 函数 ， 当 传人 的 参数 不 是 目前 可 以 处 理 的 情况 ， 可 
以 直接 列 出 错误 信息 ， 如 下 所 示 。 


dg E RUAS 
percent.default <- function( x ) 


t 
printC" 你 所 传递 的 参数 无 法 处 理 ") 
} 


读者 需 特别 留意 的 是 函数 名 称 “percent"， 须 加 上 “."， 再 加 上 “default”，UseMethod O 是 用 
“default” 来 判别 何 时 调用 此 函数 的 ， 以 后 调用 “percent” 时 ， 若 所 传递 的 参数 不 是 数值 或 字符 时 
则 调用 这 个 函数 。 
实例 ch11_17.R : 将 默认 函数 加 入 原先 设计 的 ch11_16.R 程序 内 。 


实例 chll_17.R 


rcent «- function(x, ...) 


ngt 


UseMethodC"percent") 


} 

# 将 数值 向 量 转 成 百分比 

percent.numeric <- function( x, Xfun = round, ...) 

1 
x.percent «- Xfun(x * 100, ...) 15,6 3618 
paste(x.percent, sep = "", "X") # 加 上 百分比 符号 并 输出 

J 

# 将 字符 向 量 增 加 百分比 符号 

percent.character <- function( x ) 

16- ( 


co o-x.o0UuUPBUuUNHÁ 
4 


ii 
a 


paste(x, sep = "", "X") # 直 接 加 百分比 符号 
} 
# 设 计 默 认 函 数 
percent.default «- function( x ) 
2-í( 
22 print(" 本 程序 目前 只 能 处 理 数值 和 字符 向 量 ") 
23. t} 


[ 执行 结果 ] 


> source('-/Rbook/chll/ch11 17.R') 
» percent(mit.info) 
[ 菇 “本 程序 目前 只 能 处 理 数值 和 字符 向 量 " 


> 


上 述 错误 信息 ， 比 之 前 系统 的 错误 信息 容易 屏 ， 这 也 可 节省 未 来 程序 错误 的 检测 时 间 。 
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本 章 习题 


一 、 判 断 题 


( 


( 


) 1. 


33. 


)5. 
) 6. 


2E 
) 8. 


在 R 语言 中 ,也 可 以 将 函数 想 成 是 一 个 对 象 ， 在 RStudio 窗口 的 Console 窗口 直接 输 
入 函数 名 称 ， 可 以 看 到 函数 的 程序 代码 。 

fg R 语言 中 ,也 可 以 将 函数 想 成 是 一 个 对 象 ， 在 RStudio 窗口 的 Console 窗口 直接 输 
入 函数 名 称 ， 可 以 调用 此 函数 ， 例 如， 你 设计 了 一 个 函数 “convert ()”， 可 以 使 用 下 
列 方式 调用 此 函数 。 


> convert 


函数 主体 是 由 大 括号 (“{” 和 “}” ) 括 起 来 的 。 其 实 ， 如 果 函 数 主体 只 有 1 行 ， 也 可 
以 省 略 大 括号 。 

在 函数 调用 的 设计 中 ，R 语言 提供 了 3 点 参数 “. . .” 的 概念 ， 这 种 3 点 参数 通常 会 放 
在 函数 参数 列表 的 最 后 面 。 

函数 无 法 作为 男 一 个 函数 的 参数 。 

有 一 个 函数 的 程序 代码 如 下 所 示 。 


1 exerl <- function( x, Xfun = round, ...) 
2-( 

3 x.percent «- Xfun(x * 100, ...) 

4 paste(x.percent, sep - "", "X") 

5) 


调用 上 述 函数 时 ， 如 果 没 有 传递 第 2 个 参数 ， 此 函数 将 自动 调用 round O 函数 。 

其 实 对 于 一 个 函数 而 言 ， 这 个 函数 内 部 所 使 用 的 变量 称 局 部 变量 (Local Variable )。 
如 果 一 个 函数 接收 到 参数 后 ， 什 么 事 都 不 做 ， 只 是 将 工作 分 配 其 他 函数 执行 ， 这 类 函 
数 被 称 为 通用 函数 ( Generic Function )。 


、 单 选 题 
) 1. 


下 列 函数 ， 如 果 不 传递 第 2 个 参数 设 定 产生 保留 到 小 数 点 后 第 几 位 的 百分比 ， 将 自动 
产生 保留 几 位 小 数 的 百分比 ? 


1 e.percent <- function( x, x.digits = 1 ) 

2- ER 

3 x.percent «- round(x * 100, digits - x.digits) 
4 paste(x.percent, sep = "", "X") 

5 } 


A.0 B.1 C.2 D3 


( 


) 2. 下 列 函数 ， 如 果 不 传递 第 2 个 参数 设 定 产生 保留 到 小 数 点 后 第 几 位 的 百分比 ， 将 自动 


产生 保留 几 位 小 数 的 百分比 ? 


1 e2.percent <- function( x, ...) 
2- { 

3 x.percent <- round(x * 100, ...) 
4 paste(x.percent, sep = "", "X") 
$1 


A.0 B. 1 c.2 
有 如 下 函数 。 

1 ez2.percent <- function( x, ...) 

2-1 

3 x.percent <- round(x * 100, ...) 


4 paste(x.percent, sep = "", "X") 
SH 


下 列 哪 一 个 函数 在 调用 时 会 有 错误 信息 ? 

A. > e2.percent(0.03456) 

B. » e2.percent(0.03456, 2) 

C. > e2.percent(0.03456, digits = 2) 

D. » e2.percent(0.03456, xdigit - 2) 

下 列 哪 一 个 函数 是 print O 函数 的 默认 函数 ? 
A. print.list () B. print.default () 
C. print.condition () D. print.restart () 

AUN F ER 


1 percent <- function(x, ...) 


4 
~ 


UseMethod( "percent") 


rcent.numeric «- function( x, Xfun = round, ...) 


^3 


" 


x.percent «- Xfun(x * 100, ...) 
paste(x.percent, sep = "", "X") 


rcent.character «- function( x ) 


4 


-3 


paste(x, sep = "", "X") 


URESoo-xousumw 


$ 
14 percent.default <- function( x ) 
15- ( 
16 print(" 本 程序 目前 只 能 处 理 数值 和 字符 向 量 ") 
UE 


上 述 函 数 中 哪 一 个 是 通用 函数 ( Generic Function ) ? 
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A. percent () B. percent.numeric () 
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C. percent.character () D. percent.default () 


) 6， 有 如 下 函数 。 


1 percent <- function(x, ...) 
UseMethod("percent") 
} 
percent.numeric <- function( x, Xfun = round, ...) 
1 


x.percent «- Xfun(x * 100, ...) 
paste(x.percent, sep = "", "X") 


} 
percent.character <- functionC x ) 
t 


paste(x, sep = "", "X") 


H 
14 percent.default <- function( x ) 
15- ( 
16 print(" 本 程序 目前 只 能 处 理 数 值 和 字符 向 量 ") 
EH 


如 果 在 调用 上 述 的 通用 函数 时 ， 所 传递 的 数据 是 数据 框 (Data Frame )， 实 际 上 将 调用 哪 
一 个 函数 执行 任务 ? 
A. percent () B. percentnumeric () 
C. percent.character () D. percent.default () 
) 7， 有 如 下 函数 。 


1 percent «- function(x, ...) 


4 
mm 


UseMethod("percent") 


rcent.numeric «- function( x, Xfun = round, ...) 


^3 


x.percent <- Xfun(x * 100, ...) 
paste(x.percent, sep - "", "X") 
} 
10 percent.character <- function( x ) 
DE { 
12 paste(x, sep = "", "X") 
13 ) 
14 percent.default <- function( x ) 
15- ( 
16 print(" 本 程序 目前 只 能 处 理 数值 和 字符 向 量 ") 
"UE 


如 果 调 用 上 述 的 通用 函数 时 ， 所 传递 的 数据 是 数值 数据 ， 实 际 上 将 调用 哪 一 个 函数 执行 
任务 ? 


A. percent () B. percent.numeric () 


A 0) O Ui & UN 
1 


C. percent.character () D. percent.default () 
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三 、 多 选 题 


( 


) 1， 下 列 哪 些 函 数 是 通用 函数 (Generic Function)? (选择 两 项 ) 
A.sum () B. as.Date () C. plot () 
D. print () E. grep O 


四 、 实 际 操作 题 ( 如 果 题 目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 


b. 


重新 设计 实例 ch11_11.R， 使 用 3 点 参数 ， 如 果 不 输入 第 2 个 参数 ， 将 产生 带 1 位 小 数 的 百 
Ar Hss 

重新 设计 实例 ch11_17.R， 设 计 通 用 函数 ,使 用 3 点 参数 ， 如 果 输 入 的 是 数值 ， 默 认 是 求 平 
均值 ， 如 果 输 入 的 是 字符 ， 则 将 字符 改 成 大 写 ， 默 认 函 数 则 不 变 。 

设计 一 个 计算 电费 的 通用 函数 ， 每 度 电费 100 元 ， 如 果 输 入 的 不 是 数值 向 量 ， 则 输出 “输入 
错误 ， 请 输入 数值 向 量 ”。 


205 


MEMO 











程序 的 流程 控制 





R 语言 一 一 迈 向 大 数据 之 路 


if 语句 


并 语句 的 运行 非常 容易 ， 如 果 某 个 逻辑 表达 式 为 真 ， 则 执行 特定 工作 。 
12-1-1 让 语句 的 基本 操作 


让 语句 的 基本 格式 如 下 所 示 。 
if ( 逻辑 表达 式 ) { 
系列 运算 命令 





TRUE (A) 


上 述 的 逻辑 表达 式 ， 读 者 也 可 以 将 它 想 成 是 条 件 表 达 式 ， 如 果 是 TRUE， 则 执行 大 括号 内 的 
命令 。 如 果 运 算命 令 只 有 1 行 ， 也 可 省 略 大 括号 ， 此 时 站 语 句 的 格式 如 下 所 示 。 

if ( 3E BERGE X, ) 运算 命令 

或 

if ( 逻辑 表达 式 ) 

运算 命令 
实例 ch12_1.R : 假设 1 度 电 费 是 50 元 ， 为 了 鼓励 节约 能 源 ， 如 果 一 个 月 使 用 超过 200 度 ,电费 
将 再 加 收 总 价 的 13% 。 如 果 电 费 小 于 1 元， 以 四 舍 五 人 处 理 。 


# 

# 实例 ch12_1.R 

LÀ 

chi2.1 «- function( deg, unitPrice - 50 ) 
Ht 
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net.price <- deg * unitPrice nuum 
if C deg > 200 ) { 才 如 果 使 用 超过 200 度 
net.price <- net.price * 1.15 ## 电 费 加 收 15% 


6 

7 

8 

9 } 
10 round(net.price) LLE 208 $4 
11 


Y 
[执行 结果 ] 


> source('-/Rbook/ch12/ch12 1.R') 
> ch12 1(150) 

[1] 7500 

> ch12 1(deg = 150) 

[1] 7500 

> chl2 1(deg -250) 

[1] 14375 

> 


对 上 述 实例 而 言 ， 如 果 用 电 度 数 超过 200 度 ， 则 在 第 7 行 作 判断 ， 执 行 大 括号 内 的 命令 ， 所 
以 “deg > 200” 就 是 一 个 逻辑 表达 式 。 在 调用 函数 ch12_1 O 时 ,对 第 1 个 参数 ， 可 以 直接 输入 
数字 ， 此 例 是 “150”"， 也 可 以 输入 “deg = 150"， 后 者 输入 方式 可 让 返回 的 结果 更 容易 理解 。 笔 者 
曾 说 过 ， 如 果 让 语句 所 执行 的 命令 只 有 1 行 时 可 以 省 略 大 括号 ， 可 参考 下 列 实例 。 
实例 ch12_2.R : 重新 设计 实例 ch12_1.R， 将 站 语句 的 大 插 号 省 略 。 


实例 ch12_2.R 


hi2.2 <- function( deg, unitPrice = 50 ) 


BHON M 


net.price <- deg * unitPrice # 计 算 电 费 
if C deg > 200 ) net.price <- net.price * 1.15 # 如 果 使 用 超过 200 度 电费 加 收 15% 
round(net.price) # 电 费 取 整数 


DoNamwmhwnN 
* 


w 


[ 执行 结果 ] 


> source('-/Rbook/ch12/ch12 2.R') 
> chi2 2(150) 

[1] 7500 

> chi2 2(deg = 250) 

[1] 14375 

> 


有 的 程序 设计 师 感觉 上 述 程序 的 第 7 行 的 写法 使 命令 显得 太 长 ， 也 可 以 将 它 分 成 2 行 ， 如 下 
列 实例 所 示 。 
实例 ch12_3.R : 重新 设计 实例 ch12_2.R， 将 让 语句 的 大 括号 省 略 ， 不 过 将 原先 的 第 7 行 拆 成 2 行 。 


# 

# 实例 ch12_3.R 

# 

ch12_3 <- function( deg, unitPrice = 50 ) 


Np 
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5-1 
6 net.price <- deg * unitPrice # 计 算 电 费 
7 if ( deg > 200 ) # 如 果 使 用 超过 200 度 
8 net.price <- net.price * 1.15  # 电 费 加 收 1S% 
9 round(net.price) # 电 费 取 整数 
10 上 
[执行 结果 ] 


> source(C'~/Rbook/ch1l2/ch12_3.R') 
> chi2 3(150) 

[1] 7500 

> chl12 3(deg = 250) 

[1] 14375 


> 


12-1-2 if- else 语句 


if = else 语句 的 基本 格式 如 下 所 示 。 
if C 逻辑 表达 式 ) { 

系列 运算 命令 A 
) else ( 

系列 运算 命令 B 





FALSE( 假 ) TRUE (ĦA) 






系列 
运算 命令 B 


往 下 执行 


DT 









有 时 为 了 增加 程序 的 可 读 性 ， 而 且 笔者 是 使 用 Source 一 次 性 编译 整个 文件 ， 所 以 笔者 会 用 下 
列 格式 ,编写 上 述 让 语句 。 
让 ( 逻辑 表达 式 ) 
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{ 
系列 运算 命令 A 
else 
{ 
系列 运算 命令 B 
} 
值得 注意 的 是 ， 如 果 是 如 前 10 章 ， 使 用 直译 器 方式 在 Console 窗口 输入 站 语句 时 ，else 不 应 
该 放 在 下 一 行 的 开始 处 ， 应 该 放 在 行 的 末端 。 因 为 当 一 个 命令 尚未 结束 时 ， 若 不 将 else 放 在 前 
一 行 的 末端 ，R 直译 器 会 认为 前 一 行 已 经 执行 结束 了 。 但 是 ， 在 本 书 11 章 后 的 程序 ， 由 于 是 在 
Source 窗口 编辑 程序 代码 的 ， 整 个 让 … else 语句 是 在 函数 “{” 和 “}” 之 间 编 写 的 ， 之 后 再 编译 
和 执行 ，else 就 没有 这 个 限制 ， 可 以 放 在 新 的 一 行 ， 其 实 这 样 所 编写 的 程序 是 比较 容易 阅读 的 。 
对 于 上 述 的 逻辑 表达 式 ， 读 者 也 可 以 将 它 想 成 是 条 件 表 达 式 ， 如 果 是 TRUE， 则 执行 大 括号 
内 的 运算 命令 A， 否则 执行 else 后 大 括号 内 的 运算 命令 B。 如 果 运算 命令 只 有 1 行 ， 则 也 可 省 略 
大 括号 ， 此 时 站 的 格式 如 下 所 示 。 
if ( 逻辑 表达 式 ) 运算 命令 A ele 
运算 命令 B 
或 
证 ( 逻辑 表达 式 ) 
运算 命令 A else 
运算 命令 B 
有 时 为 了 增加 程序 的 可 读 性 ， 所 以 笔者 会 用 下 列 格 式 ， 编写 上 述 站 语句 ， 这 样 的 程序 比较 容 
易 阅 读 。 
if C 逻辑 表达 式 ) 
运算 命令 A 
else 
运算 命令 B 
再 强调 一 次 ，else 只 有 在 “{” 和 “}” 之 间 ， 例 如 在 函数 内 的 程序 片段 ， 才 可 将 else 放 在 程序 
行 的 起 始 位 置 。 
实例 ch12_4.R : 延续 实例 ch12_1.R， 但 条 件 改 为 ， 如 果 用 电 度 数 在 100 度 C) 以 下 ， 则 电费 享 
受 八 五 折 ，100 度 以 上 则 电费 增加 15%。 


实例 ch12_4.R 


WNE 
RR 
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4 chl2_4 <- function( deg, unitPrice = 50 ) 
S-t 
6 net.price «- deg * unitPrice # 计 算 电 费 
7 if ( deg > 100 ) in 0 mitilo0& 
8 net.price «- net.price * 1.15 gm 3 Indri5x 
9 else 
10 net.price «- net.price * 0.85 # 电 费 减 免 15% 
1 round(net.price) # 电 费 取 整数 
12.) 
[执行 结果 ] 


> source('-/Rbook/ch12/ch12 4.R') 
> chi2 4(deg = 80) 


在 上 述 实例 中 ， 如 果 用 电 在 100 度 以 上 ， 则 执行 第 8 行 命令 加 收 15% 的 电费 ， 否 则 执行 第 10 
行 命令 减少 15% 的 电费 。 


12-1-3 让 语句 也 可 有 返回 值 

R 语言 与 其 他 高 级 语言 不 同 ， 它 的 并 语句 类 似 函 数 也 可 以 有 返回 值 ， 然 后 我 们 可 以 将 这 个 返 
回 值 赋 给 一 个 变量 使 用 ， 可 参考 实例 ch12_5.R。 也 可 以 将 这 个 ff 语句 直接 应 用 在 表达 式 中 ， 可 参 
考 实例 ch12_6.R。 
实例 ch12_5.R : 这 个 程序 主要 是 重新 设计 实例 ch12_4.R， 但 本 程序 会 使 电费 的 调整 比率 利用 if 
语句 产生 ， 最 后 再 重新 计算 电费 。 


1 # 
2 # 实例 ch12_5.R 
Bs 
4 chl2_5 <- function( deg, unitPrice = 50 ) 
Et 
6 net.price <- deg * unitPrice # 计 算 基 本 电费 
7 adjustment <- if ( deg > 100 ) 1.15 else 0.85 # 计 算 调整 比率 
8 total.price «- net.price * adjustment # 重 新 计算 电费 
9 round(total.price) # 电 费 取 整 数 
10 } 

[执行 结果 ] 


> source('^/Rbook/ch12/ch1l2 5.R') 
> chl2 5(deg = 80) 

[1] 3400 

> chl2 5(deg = 200) 

[1] 11500 

- 


CHAPTER 12 程序 的 流程 控制 


R 语言 也 支持 将 这 语句 直接 应 用 在 表达 式 中 ， 有 的 R 语言 程序 设计 师 在 设计 程序 时 为 追求 精 


简 的 程序 代码 ， 会 将 第 7 至 8 行 缩 成 1 行 ， 可 参考 下 列 实例 。 
实例 ch12_6.R : 以 精简 程序 代码 的 方式 重新 设计 ch12_5.R。 


实例 ch12_6.R 


h12_6 <- function( deg, unitPrice = 50 ) 


marak 


net.price <- deg * unitPrice ## 计 算 电 费 
total.price «- net.price * if ( deg > 100 ) 1.15 else 0.85 
round(total.price) "B SENSN 


oono wne 
4 


w 


[执行 结果 ] 


> Source(' -/Rbook/ch12/ch12. 6.R') 
> chl2 6(deg = 80) 

[1] 3400 

> ch12 6(deg = 200) 

[1] 11500 

> 


12-1-4 if** elseif --- else if else 


使 用 站 语句 时 ， 可 能 会 磁 上 需要 多 重 判断 的 情况 ， 此 时 可 以 使 用 这 个 语句 。 它 的 使 用 格式 如 


下 所 示 。 

if( 逻辑 表达 式 A ){ 
系列 运算 命令 A 

} ele if( 逻辑 表达 式 B ) 
系列 运算 命令 B 

} ele if( 逻辑 表达 式 n ) 
系列 运算 命令 n 

} ele { 
系列 其 他 运算 命令 

} 


实例 ch12_7.R : 假设 1 度 电费 是 50 元 ,为 了 鼓励 节约 能 源 ， 如 果 一 个 月 用 电 超过 120 度 ， 则 电 


费 将 加 收 总 价 的 159%。 如 果 一 个 月 用 电 小 于 80 Æ, 则 电费 可 以 减免 15%。 
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1 # 
2 # 实例 ch12_7.R 
3 g 
4 chl127 <- function( deg, unitPrice = 50 ) 
sui 
6 if C deg > 120) # 如 果 使 用 超过 120 度 
net.price <- deg * unitPrice * 1.15 d 9 Indr15x 
8 else if ( deg < 80 ) jin b mocrsom 
9 net.price «- deg * unitPrice * 0.85 ## 电 费 减 免 15% 
10 else 
11 net.price <- deg * unitPrice #E RGA 
12 round(net.price) # 电 费 取 整 数 
UE 
[执行 结果 ] 


> Source('-/Rbook/ch12/ch12 7.R') 
> chl2 7(deg = 70) 


> ch12 7(deg = 150) 
[1] 8625 
> 


12-1-5 ER if EA 


PREH if QE. if AT AA EAAS if A, A ER SKAER . 
实例 ch12_8.R : 假设 1 度 电费 是 50 元 ， 为 了 鼓励 节约 能 源 ， 如 果 一 个 月 用 电 超 过 100 EE, ig 
将 加 收 总 价 的 15%。 如 果 一 个 月 用 电 小 于 ( 含 ) 100 度 ， 则 电费 可 以 减免 13%。 同 时 如 果 一 个 家 
庭 有 贫困 证 明 ， 同 时 用 电 度 数 小 于 100 度 ， 电 费 可 以 再 减免 3 成 。 如 果 电费 有 小 于 1 元 的 部 分 ， 


# 计 算 电 费 
3058 (P F8 33 F1 100 E 
# 电 费 加 收 15% 


# 电 费 减免 15% 
# 检 查 是 否 符合 贫困 证 明 
"XH 














# 电 费 取 整 数 


则 以 四 舍 五 人 处 理 。 
1 s 
2 # 实例 ch12_8.R 
3 s 
4 chl2_8 <- function( deg, poor = FALSE, unitPrice = 50 ) 
5-1 
6 net.price «- deg * unitPrice 
7 if ( deg » 100 ) 
8 net.price «- net.price * 1.15 
9- else { 
10 net.price «- net.price * 0.85 
11 if C poor == TRUE) 
12 net.price - net.price * 0.7 
13 H 
14 round(net .price) 
15 ) 
[ 执行 结果 ] 
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> source('-/Rbook/ch12/ch12. 8.R') 
> chl2 B(deg = 80) 

[1] 3400 

> chl2 8(deg = 80, poor = TRUE) 
[1] 2380 

> chl12 8(deg = 200) 

[1] 11500 

> chl12 8(deg = 200, poor = TRUE) 
[1] 11500 

> 


对 上 述 实例 而 言 ， 第 7 行 至 13 行 是 外 部 让 语句 ， 第 11 行 至 12 行 是 内 部 的 让 语句 。 另 外 需 特 
别 注意 的 是 程序 的 第 11 行 ， 在 罗 辑 运算 中 ， 判 断 是 否 相 等 所 用 的 符号 是 “=="”。 其 实 对 上 述 实例 
chll 8.R 的 第 11 £r 而 言 ， 我 们 也 可 以 将 多 辑 表达 式 简化 为 如 下 形式 。 

if ( poor ) 

因为 poor 的 值 是 TRUE 8X FALSE, 让 可 由 poor 判断 是 否 执行 第 12 行 的 内 容 。 
实例 ch12_9.R : 优化 实例 ch12_8.R 的 设计 。 














1 # 
2 # 实例 ch12_9.R 
3 # 
4 ch12_9 <- function( deg, poor = FALSE, unitPrice = 50 ) 
5-t 
6 net.price «- deg * unitPrice # 计 算 电 费 
7 if C deg » 100 ) # 如 果 使 用 超过 100 度 
8 net.price <- net.price * 1.15 i88 39 Tp c 15x 
9- else ( 
10 net.price «- net.price * 0.85 # 电 费 减免 15% 
11 if C poor ) # 检 查 是 否 符合 贫困 证 明 
12 net.price = net.price * 0.7 #H RR 
13 } 
14 round(net.price) [LE 104 $4 
15M } 
[执行 结果 ] 


> source(C'~/Rbook/ch1l2/ch12_9.R') 
> chi2 9(deg = 80) 
[1] 3400 


> chl2 9(deg = 80, poor = TRUE) 
[1] 2380 
> 


递归 式 函 数 的 设计 


如 果 一 个 函数 可 以 调用 自己 ， 这 个 函数 被 称 为 递归 式 函 数 。R 语言 也 可 支持 函数 自己 调用 自 
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己 。 递 归 式 函数 的 调用 具有 下 列 特性 。 
T) 递归 式 函 数 每 次 调用 自己 时 ， 都 会 使 问题 越 来 越 小 。 
2) ”必须 有 一 个 终止 条 件 来 结束 递归 函数 的 运行 。 
递归 函数 可 以 使 程序 变 得 很 简洁 ,但 是 设计 这 类 程序 如 果 一 不 小 心 ， 很 容易 掉 入 无 限 循环 的 
陷阱 ， 所 以 设计 这 类 函数 时 ,一 定 要 特别 小 心 。 
实例 ch12_10.R : 使 用 递归 式 函 数 的 设计 实例 ， 设 计 阶 乘 函 数 。 


TE g 

2 # 实例 ch12_10.R 

3 # 

4 ch12 10 <- function(x) 

5-1 

6 if (x 一 0) TA IERE 
7 x.sum = 1 

8 else 

9 Xx_sum = x * chi2 1((x - 1) # 归 式 调用 
10 return (x sum) 

219) 

[执行 结果 ] 

> source('~/Rbook/ch1i2/ch12_10.R') 
> ch12_10(1) 

[1] 1 
> chl2 10(2) 

2 
> chi2.10(3) 

[1] 6 
> chi2 10(4) 

[1] 24 


> 
Q 其 实 R 语言 可 用 factorial () 函数 完成 上 述 工 作 。 


ER ch12_10 O 阶乘 函数 的 终止 条 件 为 参数 值 为 0， 可 由 程序 的 第 6 行 判 断 ， 然 后 使 x_sum 
的 值 为 1， 再 返回 x_sum 值 。 下 列 笔 者 以 参数 为 3 的 情况 为 例 解说 该 程序 ， 此 时 程序 第 9 行 的 内 
容 如 下 所 示 。 
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sum -3* factriol ( 3 - 1 ) 


一 个 递归 调用 参数 为 2 


factriol(2-1) 


一 个 递归 调用 参数 为 1 








返回 1 


Sum = 1* factriol(1-1) 





| 一 个 递归 调用 参数 为 0 


sum=1 


所 以 当 参 数 为 3 时， 结果 值 是 6。 


PE 向 量化 的 逻辑 表达 式 


本 书 从 第 4 章 起 ， 笔 者 就 一 直 强 调 变量 具有 向 量 (Vector) 的 特质 ， 所 以 本 章 的 12-1 节 所 介 
绍 的 让 … else 语句 如 果 无 法 表达 向 量化 的 特质 ， 那 R 的 精神 将 逊色 很 多 。 


12-3-1 ”处理 向 量 数据 时 证 … else 产生 的 错误 


假设 我 们 用 一 个 向 量 数 据 去 执行 ch12_8.R 的 程序 ， 将 会 如 何 呢 ? 执行 结果 如 下 所 示 。 


> chl2 8(c(80, 200)) 

[1] 3400 8500 

Warning message: 

In if (deg » 100) net.price «- net.price * 1.15 else ( : 
条 件 的 长 度 > 1: 因此 只 能 用 其 第 一 元 素 

P 


由 执行 结果 R 已 经 告诉 我 们 结果 问题 了 ， 对 于 第 1 个 数据 ， 结 果 是 对 的 ， 但 对 于 第 2 个 数 
据 ， 正 确 结果 应 是 11500， 而 不 是 8500。 因 为 让 语句 只 能 处 理 1 个 数据 ， 所 以 第 2 个 数据 并 没有 
经 过 “if( deg > 200 )” 的 比 对 ， 所 以 第 2 个 数据 获得 了 8500 的 错误 结果 。 


12-3-2 ifelse O 函数 


这 是 一 个 可 以 处 理 向 量 数据 的 函数 ， 其 基本 使 用 格式 如 下 所 示 。 
ifele ( 逻辑 判断 ，TRUE 表达 式 ，FALSE 表达 式 ) 
如 果 逻 辑 判断 是 TRUE， 则 执行 TRUE 表达 式 。 
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如 果 逻 辑 判断 是 FALSE， 则 执行 了 FALSE 表达 式 。 
下 列 是 用 Console 窗口 测试 的 实例 。 


> ifelse ( c(1, 5) > 3, 10, 1) 
[1] 1 10 
» 


上 述 实例 主要 是 判断 向 量 的 元 素 值 是 否 大 于 3， 如 果 是 则 返回 10， 和 否则 返回 1。 
实例 ch12_11.R : 使 用 ifelse O 重新 设计 实例 ch12_4.R， 如 果 用 电 度 数 在 100 度 ( 含 ) 以 下 ， 则 
电费 享受 八 五 折 ， 如 果 用 电 度 数 在 100 度 以 上 ， 则 电费 增加 15%。 


实例 ch12_11.R 


h12_11 <- function( deg, unitPrice = 50 ) 


m Q GG 


net.price «- deg * unitPrice nram m 
net.price = net.price * ifelse(( deg > 100 ), 1.15, 0.85 ) 
round(net.price) # 电 费 取 整 数 


oonan wNe 
1 


w 


[执行 结果 ] 
> Source(C'~/Rbook/ch1l2/ch12_11.R') 


> chl2 11(c(80, 200)) 
[1] 3400 11500 
> 


实例 ch12_12.R : 用 ifelse ()， 重 新 设计 ch12_8.R。 


实例 ch12_12.R 


hi2 12 <- function( deg, poor = FALSE, unitPrice = 50 ) 


maret 


" 


net.price «- deg * unitPrice mnram m 

net.price «- net.price * ifelse (deg » 100, 1.15, 0.85) 
net.price «- net.price * ifelse (deg <= 100 & poor, 0.7, 1) 
round(net.price) LEE 20 1.4 


CLONA WNE 


k 
m 


[ 执行 结果 ] 


> source('-/Rbook/ch12/ch12 12.R') 

» deginfo «- c(80, 80, 200, 200) 

» poorinfo «- c(TRUE, FALSE, TRUE, FALSE) 
> ch12 12(deginfo, poorinfo) 

[1] 2380 3400 11500 11500 

> 


在 上 述 执行 结果 中 ， 我 们 传递 了 两 个 向 量 , 分 别 是 用 电 度 数 和 是 否 贫困 。 其 实 也 可 以 将 用 电 
度数 和 是 否 贫 困 处 理 成 数据 框 ( Data Frame )， 然 后 在 调用 ch12_12 O 函数 时 ， 传 递 数 据 框 。 可 参 
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考 下 列 执行 结果 。 


> testinfo «- data.frame(deginfo, poorinfo) 
> with(testinfo, ch12 lZ(deginfo, poorinfo)) 
[1] 2380 3400 11500 11500 

> 


| switch 语句 


在 介绍 本 节 前 ， 笔 者 先 强调 ，switch 语句 无 法 处 理 向 量 数据 。 

在 12-1-4 节 中 的 过 … elseif 语句 是 用 于 多 重 判断 条 件 的 ， 对 于 这 类 问题 ， 有 时 也 可 以 使 用 
switch 语句 取代 。 它 的 使 用 格式 如 下 所 示 。 

switch ( 判断 运算 ,表达 式 1, 表达 式 2,… ) 

判断 运算 的 最 终 值 可 能 是 数字 或 文字 ， 如 果 最 终 值 是 1 则 执行 表达 式 1， 如 果 最 终 值 是 2 则 
执行 表达 式 2， 其 他 依 此 类 推 。 如 果 最 终 值 是 文字 ， 则 执行 相对 应 的 表达 式 。 
实例 ch12_13.R : 用 switch 语句 重新 设计 ch12_7.R。 


1 # 
2 # 实例 ch12_13.R 
3 # 
4 chl2_13 <- function( deg, unitPrice = 50 ) 
Sa í 
6 if (deg > 120) index <- 1 
7 if (deg <= 120 & deg >= 80) index <- 2 
8 if (deg < 80) index <- 3 
9 switch (index, 
10 net.price «- deg * unitPrice * 1.15, # 电 费 加 收 15% 
11 net.price «- deg * unitPrice, ## 正 常 收费 
12 net.price «- deg * unitPrice * 0.85) n 9 x 15x 
13 round(net.price) 水 电费 取 整 数 
14 ) 
[执行 结果 ] 


> source('~/Rbook/ch1l2/ch12_13.R') 
> ch12 13(deg = 70) 


[1] 2975 
> ch12 13(deg = 100) 
[1] 5000 
> ch12 13(deg = 150) 
[1] 8625 


- 


实例 ch12. 14.R : 依据 输入 的 字符 串 做 适当 响应 ， 输 入 “iphone” 则 返回 “Apple"， 输 入 “TV” 
则 返回 “Sony”， 输 入 “PC” 则 返回 “Dell”。 
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1 # 
2 # 实例 ch12_14.R 
20s 
4 chl1214 <- function( type ) 
5-1 
6 switch (type, iphone - "Apple", 
7 TV - "Sony", 
8 PC = "Dell") 
9-1 
[执行 结果 T 


> Ssource('-/Rbook/ch12/ch12 14.R') 
> ch12 14("TV") 

[1] "Sony" 

> ch12 l4("iphone") 

[1] "Apple" 

> ch12 14("PC") 

[1] "Dell" 

> 


对 上 述 实例 而 言 ， 如 果 输 入 非 switch O 内 的 字符 串 ， 将 看 不 到 任何 返回 结果 


> ch12_14Ç"Radio") 
> 


switch O 是 可 以 支持 默认 值 ， 只 要 将 其 放 在 参数 末端 ， 然 后 去 掉 判 断 值 即 可 。 


实例 ch12_15.R : 修改 ch12_14.R， 如 果 输入 非 Switch O 内 的 其 他 字符 串 ， 则 输出 


实例 ch12_15.R 


hi2 15 <- function( type ) 


c^ 0 3X€ 36 3X 


switch (type, iphone - "Apple", 
TV = "Sony", 
PC = "Dell", 
"Input Error!") 


(D o0 X O) Ui & UN | 
4 


5 
- 


[ 执行 结果 ] 


> source('-/Rbook/ch12/ch12 15.R') 
> chi2 15("TV") 

[1] "Sony" 

> chl2 15("Radio") 

[1] "Input Error!" 

> 


， 如 下 所 示 。 


"Input Error!” o 
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for 循环 


for 循环 可 用 于 向 量 对 象 的 操作 ， 它 的 使 用 格式 如 下 所 示 。 
for( 循环 索引 in 区 间 ) 单 一 运算 命令 
如 果 是 有 多 个 运算 命令 ， 则 使 用 格式 如 下 所 示 。 
for( 循环 索引 in 区 间 ) { 
系列 运算 命令 
} 
实例 ch12_16.R : 计算 1 到 的 总 和 。 


实例 ch12_16.R 


h12 16 «- function( n ) 


n^ 0 3X oO 


sumx <- 0 
for ( i in n) sumx <- sumx + i 
print(sumx) 

} 


ooN A UNE 
1 


[ 执行 结果 ] 


> source(' -«/Rbook/ch12/ch12 16.R') 
> ch12.16(1:10) 

[1] 55 

> ch12. 16(1:100) 

[1] 5050 

> 


Q 其 实 R 语 言 可 用 sum (1:10 ) 或 sum (1:100) 完成 上 述 工作 。 
实例 ch12_17.R : 计算 系统 内 建 数据 集 state.region ( 第 6 章 的 6-9 节 曾 介绍 此 数据 集 )， 属 于 
"North Central” 的 有 多 少 个 州 。 


实例 ch12_17.R 


h12 17 «- function( n ) 


c^ * 3x3 


counter <- Q 
for ( i in n) 


1 


c XoO0Uud4A&U6uNmHT 
4 


1 
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print(counter) 


> source('-/Rbook/ch12/ch12 17.R') 


> ch12.17(state.region) 
n] i2 


> 


if C i == "North Central") 
Counter <- counter + 1 


对 于 实例 12. VIR 而 言 ， 它 会 将 state.region 内 美国 50 个 州 的 属于 那 一 个 区 执行 一 次 ， 如 果 属 
F “North Central” 则 加 1。 接 着 笔者 要 介绍 另 一 个 数据 集 statex77， 这 个 数据 集 是 一 个 矩阵 ， 数 





据 如 下 所 示 。 

> state.x77 

Population Income Illiteracy Life Exp Murder HS Grad Frost Area 
Alabama 3615 3624 2: 69.05 15.1 41.3 20 50708 
Alaska 365 6315 1.5 69.31 11.3 66.7 152 566432 
Arizona 2212 4530 1.8 70.55 7.8 58.1 15 113417 
Arkansas 2110 3378 1.9 70.66 10.1 39.9 65 51945 
California 21198 5114 1.1 71.731 10.3 62.6 20 156361 
Colorado 2541 4884 9.7 72.06 6.8 63.9 166 103766 


如 果 继 续 深 动 异常 ， 可 以 看 到 更 多 数据 ， 其 中 第 1 列 是 Population 人 口 数 ， 单 位 是 千 人 。 下 


列 代码 是 试 着 了 解 更 多 数据 结构 的 信息 。 


> str(state.x77) 


num [1:50, 1:8] 3615 365 2212 2110 21198 ... 


- attr(*, "dimnames")-List of 2 


«.$ : chr [1:50] "Alabama" "Alaska" "Arizona" "Arkansas" ... 
..$ : chr [1:8] "Population" "Income" "Illiteracy" "Life Exp" ... 


» 


实例 ch12_18.R : 计算 系统 内 建 数据 集 state x77 中 的 美国 总 人 口 数 。 


实例 ch12_18.R 


morat 


p-sum <- 0 


vonon wNe 
* 


print(p sum) 


S 
en 


[执行 结果 ] 


> source('-/Rbook/ch12/ch12 18.R') 
> chi2 18(state.x77[, "Population"]) 


[1] 212321 


> 


h12_18 <- function( n ) 


for ( i in state.x77[, "Population"]) 
p-sum <- p.sum + i 
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接 下 来 我 们 将 介绍 一 个 使 用 for 循环 的 程序 实例 ， 可 用 于 计算 向 量 数据 的 电费 计算 。 


实例 ch12_19.R : 假设 某 电 力 公司 的 收费 标准 是 每 度 50 元 ， 当 用 电 度数 超过 150 度 时 ， 可 打 8 
折 。 此 外 ， 电 费 也 会 因 使 用 单位 不 同 而 做 调整 ， 如 果 使 用 单位 是 政府 机 关 则 收费 可 打 8 折 ， 如 果 
是 公司 则 电费 需 加 收 2 成 ， 如 果 是 一 般 家 庭 则 收费 标准 不 变 。 


实例 ch12_19.R 
hl2 19 <- function( deg, customer, unitPrice = 50 ) 


listprice «- deg * unitPrice * 
ifelse (deg » 150, 0.8, 1) LIII 
8 adj «- numeric(0) 
9- for ( i in customer) ( 
10 adj <- c(adj, switch(i, goverment = 0.8, company = 1.2, 1)) 
11 } 
12 finalprice <- listprice * adj # 最 终 电费 
13 round(finalprice) # 电 费 取 整数 


[ 执行 结果 ] 


> source(' -/Rbook/ch12/ch12 19.R') 

» deginfo 

[1] 80 80 200 200 

» custinfo 

[1] "goverment" "company" "company" "family" 
> chl2 19(deginfo, custinfo) 

[1] 3200 4800 9600 8000 

> 


上 述 程序 的 第 6 行 和 第 7 行 主要 是 计算 原始 电费 ，ifelse 可 判断 原始 电费 是 否 需 要 打折 。 程 序 
第 8 行 是 建立 长 度 为 0 的 数值 向 量 adj ， 这 个 adj 数值 向 量 将 用 来 放置 电费 最 后 的 调整 数 。 程 序 第 
9 行 至 11 行 是 将 customer 内 的 值 ， 经 switch 判断 电费 最 后 的 调整 数 ， 同 时 每 一 个 循环 都 会 将 执行 
结果 放 在 adj 数值 向 量 的 末端 。 对 上 述 程序 执行 前 ， 笔 者 先 建立 了 deginfo 向 量 和 custinfo 向 量 ， 
最 后 可 以 得 到 上 述 执 行 结果 。 

相同 的 程序 也 可 以 用 不 一 样 的 思维 方式 处 理 ， 可 参考 下 列 实例 。 
实例 ch12_20.R : 使 用 不 一 样 的 方式 重新 设计 ch12_19.R。 


实例 ch12_20.R 


r^ a 3X 3t o3* 


hi2 20 «- function( deg, customer, unitPrice - 50 ) 


4 


listprice <- deg * unitPrice * 
ifelse (deg > 150, 0.8, 1) "Bim 
num.customer «- length(customer) 


c X0 Ui UNA 
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9 adj <- numeric(num.customer) 
10- for Ç i in seg along(customer)) { 
11 adj[i] «- switch(customer[i], goverment - 0.8, company - 1.2, 1) 
12 } 
13 finalprice <- listprice * adj [2 £1 5-1 
14 round(finalprice) (85 EL 
259) 
[执行 结果 ] 


> source('~/Rbook/ch1l2/ch12_20.R') 
> ch12_20(deginfo, custinfo) 

[1] 3200 4800 9600 8000 

> 


上 述 程 序 的 执行 结果 与 实例 ch12_19.R 相同 ， 程 序 的 第 8 行 是 先 计算 customer 的 长 度 ， 程 序 
第 9 行 是 建立 放置 电费 的 最 后 调整 数 的 数值 向 量 adj, JE adj 数值 向 量 的 长 度 为 customer 的 长 度 。 
seq along () 函数 会 依 索引 顺序 ， 将 customer 的 数据 执行 完毕 。 所 以 最 后 电费 的 调整 数 ， 会 依 索引 
顺序 被 存 人 adj 数值 向 量 内 。 


1] while 循环 


while 循环 的 使 用 格式 如 下 所 示 。 
while( 逻辑 表达 式 ) 
í 
系列 运算 命令 
j 
如 果 逻 辑 表达 式 是 TRUE， 循环 将 持续 执行 ， 直 到 逻辑 表达 式 为 FALSE。 
实例 ch12_21.R : 使 用 while 循环 计算 1 到 的 总 和 。 


实例 ch12_21.R 


a 


hl2.21 <- function(x) 


4 
"^0 


sumx «- 0 
while(x»-0) 
1 
SUmX <- SUMX + X 
X«-X-1 

Y 


return (sumx) 


4 


URESooxousumre 


w 


[执行 结果 ] 
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> source('-/Rbook/ch12/ch12. 21.R') 
> ch12 21(10) 

[1] 55 

> ch12 21(100) 

[1] 5050 

> 


repeat 循环 


repeat 循环 的 使 用 格式 如 下 所 示 。 
repeat 
{ 
单一 或 系列 运算 命令 
if( 39 BER IE X, ) break 
其 他 运算 命令 
j 
若是 证 的 逻辑 表达 式 为 TRUE， 则 执行 break ， 跳 出 repeat 循环 。 
实例 ch12_22.R : 使 用 repeat 循环 计算 1:58] n 的 总 和 。 





1 * 

2 # 实例 ch12_22.R 

Bu s 

4 ch12.22 <- function(x) 
Et 

6 sumx <- 0 

T repeat 

E t 

9 Sumx «- SUMX + x 
10 if ( x == 0) break 
11 x«-x-1 

12 } 
1 return (sumx) 
14 ] 

[执行 结果 ] 


> source('-/Rbook/ch12/ch12 22.R') 
> chi2 22(10) 

[1] 55 

> chi12 22(100) 

[1] 5050 

- 
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再 谈 break 语句 


前 一 小 节 我 们 已 讨论 break 语句 可 和 repeat 循环 配合 使 用 ， 如 此 可 以 跳出 循环 。 














实 ，break 


也 可 以 与 for 循环 和 while 循环 配合 使 用 。 在 这 些 循环 内 ， 当 执行 break 时 ， 可 立即 跳出 循环 。 


实例 ch12_23.R : 使 用 while 循环 ， 配 合 break 语句 ， 计 算 0 至 n-1 的 总 和 。 


S7 P 
2 # 实例 ch12_23.R 
JE 
4 ch12_23 <- function(x) 
E21 
6 sumx «- 0 
7 i<-0 
8 while Ci <x ) 
9- t 
10 if Ci — x ) break 
11 Sumx <- sumx + i 
12 i«i-1 
13 1} 
14 return (sumx) 
259 1 
[执行 结果 ] 


> source('~/Rbook/ch1l2/ch12_23.R') 
> chi2 23(10) 

[1] 45 

> ch12 23(100) 

[1] 4950 

> 


实例 ch12_24.R : 计算 1 到 的 总 和 , 但 总 和 不 可 以 超出 3000。 


1 # 

2 # 实例 ch12_24.R 

3 # 

4 chl12 24 <- function( n ) 
5-( 

6 sumx «- 0 

区 for C i inn) 

& í 

9 if C sumx + i > 3000 ) break 
10 SUmX «- sumx + i 
11 } 
12 print(sumx) 
13 } 

[ 执行 结果 ] 
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> source(' ^/Rbook/ch12/ch12 24.R') 
> chl2 24(1:50) 

[1] 1275 

> ch12 24(1:100) 

[1] 2926 

> 


由 上 述 执行 结果 可 知 ， 若 是 输入 “1:50” 由 于 总 和 没有 超出 3000 所 以 可 以 正常 显示 。 如 果 输 
入 “1:100”"， 由 于 计算 到 72 时 ， 总 和 是 2926， 如 果 计 算 到 73 将 超出 3000 范围 ， 所 以 程序 直接 执 


行 第 9 行 的 break 语句 ， 跳 出 第 7 行 至 11 行 的 循环 。 


next 语句 


next 语句 和 break 语句 一 样 ， 须 与 让 语句 ， 也 就 是 逻辑 表达 式 配合 使 用 ， 但 是 next 语句 会 跳 
过 目前 这 次 循环 的 剩 下 的 命令 ， 直 接 进 入 下 一 个 循环 。 
实例 ch12_25.R : 计算 1 到 之 间 的 偶数 的 总 和 。 


1 # 
2 # 实例 ch12_25.R 
Sis 
4 chl2_25 <- function( n ) 
et 
6 sumx <- 9 
LA for Ci inn) 
ES t 
9 if Ci X 2 !- 0) next 
10 Sumx «- sumx + i 
11 
12 print(sumx) 
1521 
[ 执行 结果 ] 


> Source(' -/Rbook/ch12/ch12 25.R') 
> ch12 25(1:10) 

[1] 3e 

» chl2 25(1:100) 

[1] 2550 


> 


上 述 程序 的 关键 在 于 第 9 行 ， 判断 i 是 否 为 偶数 ， 如 果 非 偶数 ， 则 不 往 下 执行 而 是 跳 到 下 一 
个 循环 。 


Q 其 实 R 语言 可 用 下 列 命令 完成 上 述 ch12_25 (1:100) 的 工作 。 


> n <- 1:100 

> sum(n[n XX 2 == 0]) 
[1] 2550 

- 


227 


R 语言 一 一 迈 向 大 数据 之 路 


一 、 判 断 题 


( 
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下 列 是 程序 片段 A。 


if C deg > 200 2 { 
net.price «- net.price * 1.15 
} 


下 列 是 程序 片段 B。 
if C deg > 200 ) net.price <- net.price * 1.15 


上 述 两 个 片段 其 实 是 做 同样 工作 的 。 
有 一 个 流程 控制 片段 如 下 所 示 。 
if( 逻辑 运算 式 ) { 

系列 运算 命令 A 
) else { 

系列 运算 命令 B 
} 


如 果 人 逻辑 表达 式 是 FALSE， 则 会 执行 系列 运算 命令 A. 


).3; 


) 4. 


ES 
) 6. 


以 下 是 一 个 电力 公司 收取 电费 标准 的 程序 设计 ， 请 问 以 下 设计 是 否 对 用 电量 少 的 小 市 
民 较 有 利 。 
1 efee <- function( deg, unitPrice = 50 ) 


3 net.price «- deg * unitPrice 

4 if ( deg > 100 ) 

5 net.price «- net.price * 1.15 

6 else 

7 net.price <- net.price * 0.85 

8 round(net.price) 

9.1 

以 下 是 一 个 电力 公司 收取 电费 标准 的 程序 设计 ， 请 问 以 下 设计 是 否 对 用 电量 大 的 市 民 

较 有 利 。 

1 effe <- function( deg, unitPrice = 50 ) 

2- { 
net.price <- deg * unitPrice 
adjustment <- if ( deg > 100 ) 1.15 else 0.85 
total.price <- net.price * adjustment 
round(total.price) 

} 


递归 式 函 数 ， 有 一 个 很 大 的 特点 是 ， 每 次 调用 自己 时 ， 都 会 使 问题 越 来 越 小 。 
ifelse () 函数 最 大 的 缺点 是 无 法 处 理 向 量 数据 。 


NoUpu 


. switch 循环 无 法 处 理 向 量 数据 。 
. 有 如 下 命令 。 


> ifelse(x >= 1, 2, 3) 


若 x=1， 则 返回 结果 为 3。 


二 、 单 选 题 
(  ) 1.， 以 下 哪个 非 R 循环 ? 

A. for B. until C. repeat 
( 22. 以 下 R 命令 中 ， 哪 个 的 结果 必定 为 3? 


A.ifelse (x>=3,2,3) 
C.ifelse (3>=3,2,3) 


. 有 如 下 程序 。 


1 X <- 5 

2- y <- if (x < 1 
S NA 

4-7 ) else { 

5 5 

6 H 

7 print(y) 


上 述 程序 执行 后 ， 执 行 结果 是 以 下 哪个 ? 
A. [1] NA B. [1]5 C. [1]3 


执行 以 下 程序 代码 后 : 


>a <- 1:5 

> b <- 5:1 

> d <- if (a < b) a else b 

A. 系统 出 现 error 

B. 该 程序 代码 成 功 执行 ，d 的 值 为 01. 2. 3, 4, 5] 
C. 该 程序 代码 成 功 执行 ,，d 的 值 为 [1, 2. 3, 4. 5] 
D. 该 程序 代码 成 功 执行 ，d 的 值 为 [1, 2. 3.2, 1] 


.执行 以 下 程序 代码 后 : 


»0«-1:5 
>b <- 5:1 
> d <- ifelse( a < b, a, b) 


A. 系统 出 现 error 

B. 该 程序 代码 成 功 执行 ，d 的 值 为 [1. 2. 3, 4, 5] 
C. 该 程序 代码 成 功 执行 ，d 的 值 为 [1, 2, 3, 4. 5] 
D. 该 程序 代码 成 功 执行 ，d 的 值 为 [1. 2. 3. 2. 1] 


CHAPTER 12 程序 的 流程 控制 


D. while 


B. ifelse ( 2 >= 3, 2,3 ) 
D. ifelse ( y >= 3, 2,3 ) 


D. [1] 10 


， 但 系统 出 现 warning 


， 但 系统 会 出 现 warning 
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( )6 
C JT 
( )8 
( )9. 


有 以 下 程序 代码 。 

> a <- c(0.9, 9.5, 0.7, 1.1) 

» b «- c(1.2, 1.2, 0.6, 1.0) 

c 2S a, b 两 个 向 量 当中 较 大 的 元 素 构成 ， 如 下 所 示 。 


> C 
[1] 1.2 1.2 0.7 1.1 


以 下 哪 条 命令 可 以 用 来 生成 c? 
A.c<-if(a>b)aelseb 

B. c <- pmax (a, b) 

C. if (a >b )c¢ <- a else ¢ <- b 
D. c <- max (a,b) 

有 如 下 函数 。 


1 totalprice <- function( deg, unitPrice = 50 ) 

zt 

3 net.price «- deg * unitPrice 

4 tp «- net.price * if ( deg » 100 ) 1.15 else 0.85 
5 round(tp) 


如 果 输 入 下 列 命令 ， 结 果 为 以 下 哪个 ? 
> totalprice(200) 


A. 程序 错 B. [1] 8500 C. [1] 10000 D. [1] 11500 
有 如 下 函数 。 


1 ex <- function(x) 

Exi 

if (x 一 0) 
Xx.sum = 1 

else 
X-sum = x * ex(x - 1) 
return (x sum) 


00 ^ O Ui  Uw 


} 
如 果 输 入 下 列 命 令 ， 结 果 为 以 下 哪个 ? 
> ex(5) 


A. 程序 错 B.[1]6 C. [1] 24 D. [1] 120 
有 如 下 命令 ， 执 行 结果 为 以 下 哪个 ? 
> ifelse ( c(100, 1, 50) > 50, 1, 2) 


A.[1]1 1 2 B.[1]1 2 2 c. (ij2 2: 1 D.[1]1 1 1 


( 
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三 、 多 选 题 
) 1， 有 如 下 函数 。 

1 ex <- function( deg, unitPrice = 50 ) 

ext 

z) np «- deg * unitPrice 

4 np = np * ifelse(( deg > 100 ), 1.1, 0.9 ) 

5 round(np) 

6 } 

下 列 哪 些 是 正确 的 执行 结果 ? (选择 3 项 ) 

A. > ex(50) B. > ex(100) C. > ex(200) 
[1] 2250 [1] 4500 [1] 11000 

D. » ex(300) E. » ex(60) 
[1] 18000 [1] 2400 


四 、 实 际 操作 题 ( 如 果 题 目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 


不 得 使 用 R 内 建 的 函数 ， 请 设计 下 列 函 数 。 

(1) mymax () : 求 最 大 值 。 

(2) mymin () : 求 最 小 值 。 

(3) myave O : 求 平均 值 。 

(4) mysort O : 执行 排序 。 

如 果 输 入 是 非 数 值 向 量 ， 则 输出 “输入 错误 ,请 输入 数值 向 量 ”。 

请 设计 一 个 计算 电价 的 程序 ， 收 费 规则 如 下 所 示 。 

(1) 每 度 100 元 。 

(2) 超过 300 度 打 8 折 ,“> 300" 

(3 ) 超过 100 度 但 小 于 等 于 300 度 打 9 折 ,“> 100” 和 “< = 300” 

(4) 政府 机 构 用 电 按 上 述 规则 计算 完 再 打 7 折 。 

(5) 有 贫困 证 明 ， 按 上 述 规则 计算 完 再 打 5 Dr. 

请 至 少 输入 考虑 所 有 状况 的 12 个 数据 做 测试 。 

重新 设计 实例 ch12_17.R， 计 算 系 统 内 建 数 据 集 state.region ( 第 6 章 的 6-9 节 曾 介绍 此 数据 
E) 每 一 区 各 有 多 少 个 州 。 

使 用 state.x77 数据 集 ， 配 合 state.region 数据 集 ， 编 写 程序 计算 美国 4 大 区 的 以 下 数据 。 
(1) 人 口 数 各 是 多 少 。 

(2 ) 面积 各 是 多 少 。 

(3 ) 收入 平均 是 多 少 。 
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R 语言 一 一 迈 向 大 数据 之 路 


R 语言 提供 了 一 个 循环 系统 称 apply 家 族 ， 它 具有 类 似 for 循环 的 功能 ， 但 是 若 想 处 理 相同 问 
题 ，apply 家 族 函数 好 用 太 多 了 ， 这 也 是 本 章 的 重点 。 


EE apply () 函数 


apply O 函数 的 主要 功能 是 将 所 设 定 的 函数 应 用 到 指定 对 象 ( Object ) 的 每 一 行 或 列 。 它 的 基本 
使 用 格式 如 下 所 示 。 
apply ( x, MARGIN, FUN, … ) 
O x: 要 处 理 的 对 象 ， 可 以 是 矩阵 (Matrix), N 维 数组 ( Array )、 数 据 框 ( Data Frame )。 
O MARGIN : 如 果 是 矩阵 则 值 为 1 或 2，1 代表 每 一 行 ，2 代表 每 一 列 。 
Q FUN : 要 使 用 的 函数 。 
口 … :FUN 函数 所 需 的 额外 参数 。 
实例 ch13_1.R : 某 一 个 野生 动物 园 ， 观 察 3 天 内 老虎 (Tiger), WF (Lion) $9 ( Leopard ) 出 
现 的 次 数 ， 请 列 出 这 3 天 中 ， 各 种 动物 出 现 的 最 高 次 数 。 有 关 的 所 有 观察 数据 是 在 程序 的 第 6 行 
设 定 的 。 





s 

# 实例 ch13_1.R 

# 

ch13_1 <- function( ) 

ut 

an info <- matrix(c(8, 9, 6, 5, 7, 2, 10, 6, 8), ncol = 3) 
colnames(an info) «- c("Tiger", "Lion", "Leopard") 
rownames(an info) «- c("Day 1", "Day 2", "Day 3") 
print(an info) # 打 印 3 天 动物 观察 数据 
apply(an info, 2, max) # 列 出 各 动物 最 大 出 现 次 数 


€& w o - O uUi & UNEP 


H 
e 


[ 执行 结果 ] 


> source('-/Rbook/ch13/ch13 1.R') 
> ch13 1 ) 
Tiger Lion Leopard 
Day 1 8 5 10 
Day 2 9 7 6 
Day 3 6 2 8 
Tiger Lion Leopard 
9 7 10 


在 上 述 程序 的 第 9 行 ， 笔 者 列 出 矩阵 形式 的 观察 数据 。 第 10 行 则 是 列 出 各 动物 的 最 大 出 现 
次 数 。 对 上 述 实例 而 言 ， 当 然 你 可 以 使 用 for 循环 计算 ， 但 是 看 完 上 述 程序 ， 你 会 发 现 R 语言 
真是 好 用 太 多 了 ， 居 然 只 需要 第 10 行 调 用 1 个 函数 就 完工 了 。apply O 函数 中 的 第 1 个 参数 是 
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an_info， 代 表 使 用 这 个 对 象 ， 第 2 个 参数 传递 的 是 2， 代表 处 理 的 是 列 数据 ， 第 3 个 函数 参数 是 
max， 表 示 使 用 求 最 大 值 函数 。 

对 上 述 实例 而 言 ， 如 果 第 2 天 没有 看 到 狮子 ， 这 个 位 置 填 人 NA， 那 么 结果 会 如 何 呢 ? 
实例 ch13_2.R : 使 用 第 2 天 没有 看 到 狮子 ， 这 个 位 置 为 NA 的 数据 ， 重 新 设计 ch13_1.R。 


1 # 
2 # 实例 ch13_2.R 
333 
4 ch132 <- function( ) 
5-1 
6 an.info <- matrix(c(8, NA, 6, 5, 7, 2, 10, 6, 8), ncol = 3) 
7 colnames(an info) <- c("Tiger", "Lion", "Leopard") 
8 rownames(an info) <- c("Day 1", "Day 2", "Day 3") 
9 print(an info) # 打 印 3 天 动物 观察 数据 
19 applyCan info, 2, max) # 列 出 各 动物 最 大 出 现 次 数 
11 3 
[ 执行 结果 ] 
> source('-/Rbook/ch13/ch13. 2.R') 
> ch13_2( ) 


Tiger Lion Leopard 
Day 1 8 5 10 


Day2 NA 7 6 
Day 3 6 2 8 
Tiger Lion Leopard 

NA 7 10 


在 执行 结果 中 Tiger 出 现 的 最 高 次 数 为 NA， 其 实 这 不 是 我 们 想 要 的 。 为 了 要 解决 这 个 问题 ， 
我 们 可 以 增加 apply O 内 max 函数 的 参数 na.rm， 可 参考 下 列 实例 。 
实例 ch13_3.R : 重新 设计 ch13_2.R， 此 次 在 apply () 函数 内 增加 了 第 4 个 参数 ， 其 实 这 第 4 个 


参数 是 max 函数 的 参数 。 
1 # 
2 # 实例 ch13_3.R 
[4 
4 chl3_3 <- function( ) 
5-1 
6 an info <- matrix(c(8, NA, 6, 5, 7, 2, 10, 6, 8), ncol = 3) 
z colnames(an info) <- c("Tiger", "Lion", "Leopard") 
8 rownames(an info) «- c("Day 1", "Day 2", "Day 3") 
9 print(an info) # 打 印 3 天 动物 观察 数据 
10 applyCan info, 2, max, na.rm = TRUE) # 列 出 各 动物 最 大 出 现 次 数 
1 } 
[ 执行 结果 ] 
> source('-/Rbook/ch13/ch13. 3.R') 
> ch13. 3( ) 
Tiger Lion Leopard 
Day 1 8 5 19 


Dy2 NA 7 6 
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Day 3 6 2 8 
Tiger Lion Leopard 
8 7 10 


> 


由 上 述 执行 结果 中 ，Tiger 出 现 8 次 取代 原先 的 NA， 表 示 程 序 执行 成 功 了 。 


sapply () 函数 


apply () 函数 尽管 好 用 ,但 主要 是 用 于 矩阵 (Matrix), N 维 数组 C Array )、 数 据 框 (Data 
Frame )， 若 是 面 对 向 量 ( Vector ) 、 串 行 ( List ) WE? 此 时 可 以 使 用 本 节 将 介绍 的 sapply O CIE : 
数据 框 数据 也 可 用 本 节 所 述 的 函数 处 理 )， 此 函数 开头 的 s， 是 simplify 的 缩写 ， 表 示 会 对 执行 结 
果 的 对 象 进行 简化 。sapply O 函数 的 使 用 格式 如 下 所 示 。 
sapply (x,FUN,… ) 
O x: 要 处 理 的 对 象 ， 可 以 是 向 量 ( Vector )、 数 据 框 ( Data Frame ) 和 串 行 ( List). 
口 FUN : 要 使 用 的 函数 。 
口 … : FUN 函数 所 需 的 额外 参数 。 
上 一 章 所 介绍 的 switch 是 无 法 处 理 向 量 资 料 的 ， 但 是 与 sapply O 配合 使 用 ， 却 可 以 让 程序 有 
一 个 很 好 地 使 用 结 
实例 ch13_4.R : 使 用 sapply O 函数 重新 设计 实例 ch12_19.R。 


1384 
2 $ 实例 ch13_4.R 
3 # 
4 chi3.4 <- function( deg, customer, unitPrice = 50 ) 
Sz í 
6 listprice <- deg * unitPrice * 
7 ifelse (deg > 150, 0.8, 1) # 原 始 电费 
8 adj «- sapply(customer, switch, goverment = 0.8, company = 1.2, 1) 
9 finalprice «- listprice * adj # 最 终 电 费 
10 round(finalprice) [LE 276 1.4 
zm 
[ 执行 结果 ] 


> source('-/Rbook/ch13/ch13.4.R') 

> ch13_4(deginfo, custinfo) 

goverment company company family 
3200 4800 9600 8000 


> 


A 想 要 正确 得 到 上 述 执行 结果 ， 你 的 RStudio 窗口 的 Workspace 需 有 前 一 章 实例 ch12_12.R 
Su 和 ch12 19.R 执行 时 所 建 的 deginfo 和 custinfo 对 象 。 


236 


CHAPTER 13 认识 apply 家 族 


在 原先 实例 ch12_19.R 中 , 我 们 使 用 了 一 个 for 循环 ， 我 们 在 这 个 实例 只 使 用 1 行程 序 代 码 就 


获得 了 想 要 的 结果 了 ， 当 然 你 需要 充分 了 解 sapply ()。 


如 之 前 提 到 的 ，sapply O 函数 也 可 以 用 于 数据 框 和 串 行 。 对 于 向 量 数据 ， 如 果 我 们 想 要 知道 


数据 类 型 ， 那 么 我 们 可 以 使 用 class O 函数 ， 如 下 所 示 。 


> class(deginfo) 
[1] "numeric" 

» class(custinfo) 
[1] "character" 
> 


但 如 果 是 数据 框 ， 想 一 次 获得 所 有 数据 的 数据 类 型 ， 那 么 可 以 使 用 sapply O 和 class () PR 


， 如 下 所 示 。 


> sapply(mit.info, class) # 第 7 章 所 建 的 第 1 个 数据 框 
mit.Name mit.Gender mit.Height 
"factor" "factor" "numeric" 

» sapply(testinfo, class) # 第 12 章 所 建 的 数据 框 
deginfo poorinfo 

"numeric" "logical" 

> 


如 之 前 介绍 的 ，sapply () 函数 的 开头 字母 s 是 simplify 的 缩写 ， 所 以 这 个 函数 所 返回 的 数 


， 必 要 时 均 会 被 简化 。 简 化 原则 如 下 所 示 。 


如 果 处 理 完 串 行 、 数 据 框 或 向 量 后 ， 返 回 的 是 一 个 数字 ， 则 返回 结果 会 被 简化 为 向 量 。 

如 果 处 理 完 串 行 、 数 据 框 后 ,返回 的 向 量 有 相同 的 长 度 ， 则 返回 结果 会 被 简化 为 矩阵 。 

如 果 是 其 他 情况 则 返回 的 是 串 行 。 

在 数据 处 理 过程 中 ， 如 果 和 希望 返 回 的 值 均 是 该 变量 的 唯一 值 ， 可 以 配合 unique () 函数 使 用 。 


下 列 是 以 testinfo 为 对 象 ( 内 容 见 第 12 章 的 实例 ch12_12.R )， 返回 矩阵 的 实例 。 


> sapply(testinfo, unique) 
deginfo poorinfo 

[1,] 80 1 

[2,] 200 9 

> 


下 列 是 以 mitinfo 为 对 象 ( 内 容 见 第 7 章 的 实例 ch7_1 )， 返 回 串 行 的 实例 。 


> sapply(mit.info, unique) 
$mit.Name 

[1] Kevin Peter Frank Maggie 
Levels: Frank Kevin Maggie Peter 


$mit.Gender 
[1] M F 
Levels: F M 


Smit.Height 
[1] 170 175 165 168 


- 
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对 于 mitinfo 对 象 而 言 ，mitName 有 4 个 数据 ，mit.Gender 有 2 个 数据 ， mit.Height 有 4 个 数 
据 ， 无 法 简化 ， 所 以 返回 的 是 串 行 。 


lapply () 函数 


lapply © 函数 的 使 用 方法 与 sapply O 函数 几乎 相同 ， 但 是 lapply O 函数 的 首 字 母 1 是 list 的 
缩写 ， 表示 lapply O 函数 所 传 回 的 是 串 行 ( List )。lapply O 函数 的 使 用 格式 如 下 所 示 。 
lapply (x, FUN, + ) 
O x: 可 以 是 向 量 ( Vector )、 数 据 框 ( Data Frame ) MÍT (List )。 
口 FUN : 预计 使 用 的 函数 。 
口 … : FUN 函数 所 需 的 额外 参数 。 
例如 ， 同 样 是 testinfo 对 象 ， 若 转 成 使 用 lapply O 处 理 ， 则 可 以 得 到 串 行 结 果 ， 如 下 所 示 。 


> lapply(testinfo, unique) 
$deginfo 
[1] 80 200 





$poorinfo 
[1] TRUE FALSE 


> 

不 过 对 上 述 实例 的 testinfo 对 象 而 言 ， 如 果 我 们 在 sapply O 函数 内 增加 参数 “simplify”， 同 时 
将 它 设 为 FALSE， 则 会 获得 与 lapply O 函数 相同 的 返回 结果 ， 如 下 所 示 。 

> sapply(testinfo, unique, simplify = FALSE) 


$deginfo 
[1] 80 200 


$poorinfo 
[1] TRUE FALSE 


$ 





上 述 实例 用 了 sapply O 函数 ， 我 们 仍 获得 了 与 lapply O 函数 相同 的 返回 结果 。 同 样 ， 如 果 
在 sapply () 函数 内 再 增加 一 个 参数 “USE.NAMES"， 同 时 将 它 设 为 FALSE， 也 可 以 用 sapply () FR 
数 所 获得 的 返回 结果 与 lapply O 函数 的 返回 结果 相同 。 


tapply () 函数 


tapply () 函数 主要 是 用 于 对 一 个 因子 或 因子 列表 ， 执 行 指定 的 函数 调用 ， 最 后 获得 汇总 信息 。 
tapply () 函数 的 使 用 格式 如 下 所 示 。 
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tapply (x, INDEX.FUN.… ) 
O x: 要 处 理 的 对 象 ， 通 常 是 向 量 (Vector) 变量 ， 也 可 是 其 他 数据 型 态 的 数据 。 
O INDEX : 因子 ( Factor) 或 分 类 的 字符 串 向 量 或 因子 串 行 。 
Q FUN : 要 使 用 的 函数 。 
口 … : FUN 函数 所 需 的 额外 参数 。 

下 列 是 使 用 R 语言 内 建 的 数据 集 state.region ( 内 容 可 参考 第 6 章 的 6-94), 计算 美国 4 大 区 
包含 州 的 数量 。 

> tapply(state.region, state.region, length) 

Northeast South North Central West 


9 16 12 13 
> 


实例 ch13_5.R : 使 用 R 语言 内 建 的 数据 集 state.x77 和 state.region ， 计 算 美 国 4 大 区 各 区 百姓 的 平 
均 收 入 。 在 这 个 实例 中 ，state.x77 的 第 2 个 字段 是 各 州 的 平均 收入 。 


> state.x77 
Population Income Illiteracy Life Exp Murder HS Grad Frost Area 
Alabama 3615 3624 2.1 69.05 15.1 41.3 20 50708 
Alaska 365 6315 1.5 69.31 11.3 66.7 152 566432 
Arizona 2212 4530 1.8 70.55 7.8 58.1 15 113417 
Arkansas 2110 3378 1.9 70.66 10.1 39.9 65 51945 
California 21198 5114 1.1 71.71 10.3 62.6 20 156361 
下 列 是 本 程序 实例 的 代码 。 
1 * 
2 # 实例 ch13_5.R 
3 # 
4 chl13.5 <- function( ) 
5-t 
6 
Z sstr <- as.character(state.region) # 转 成 字符 串 向 量 
8 vec.income <- state.x77[, 2] # 取 得 各 州 收入 
9 names(vec.income) «- NULL ERR A H A EUER 
10 a.income <- tapply(vec.income, factor(sstr, 
11 levels = c("Northeast", "South", "North Central", 
12 "West")), mean) 
13 return(a.income) 
14 } 
[ 执行 结果 ] 
> chl13_5(C ) 
Northeast South North Central West 
4570.222 4011.938 4611.083 4702.615 


> 


对 这 个 实例 而 言 ， 程 序 的 第 7 行 是 将 state.region 对 象 由 因子 转 成 字符 串 向 量 ， 第 8 行 是 由 数 
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据 集 state.x77 取得 各 州 收入 ,第 9 行 是 删除 向 量 名 称 , 第 10 行 至 12 行 则 是 tapply O 函数 的 精 
华 , 这 个 函数 会 依 levels 的 名 称 分 类 ,计算 各 州 收入 数据 , 第 12 行 的 mean 函数 则 表示 取 平 均值 。 

如 果 上 述 实例 是 使 用 for 循环 或 其 他 循环 ， 则 需 多 花 许多 精力 设计 程序 代码 。 学 习 至 此 相信 读 
者 一 定 会 越 来 越 喜欢 R 的 强大 功能 了 。 以 后 当 我 们 学 到 更 多 R 的 知识 时 ， 笔 者 将 介绍 更 多 这 方面 
的 应 用 。 


iris SERRE 


iris 中 文 是 高 尾 花 ， 这 是 系统 内 建 的 数据 框 数据 集 ， 内 含 150 个 记录 ， 如 下 所 示 。 


> strCiris) 

'data.frame': 150 obs. of 5 variables: 

$ Sepal.Length: num 5.1 4.94.7 4.6 5 5.4 4.65 4.4 4.9 ... 

$ Sepal.Width : num 3.53 3.2 3.13.6 3.9 3.4 3.4 2.9 3.1 ... 

$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ... 

$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ... 

$ Species : Factor w/ 3 levels "setosa","versicolor",..: 1111111111... 
> 


下 列 是 前 6 个 记录 。 


> head(iris) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 








1 5.1 3.5 1.4 0.2 setosa 
2 4.9 3.0 1.4 0.2 setosa 
3 4.7 3.2 1.5 0.2 setosa 
4 4.6 3.1 1.5 0.2 setosa 
5 5.0 3.6 1.4 0.2 setosa 
6 5.4 3.9 1.7 0.4 setosa 
> 


实例 13_6 : 使 用 lapply O 函数 列 出 iris 数据 集 的 元 素 类 型 。 
> lapply(iris, class) 
SSepal.Length 


[1] "numeric" 


$Sepal.Width 
[1] "numeric" 


$Petal.Length 
[1] "numeric" 


$Petal.Width 
[1] "numeric" 


$Species 
[1] "factor" 


> 
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上 述 实例 是 返回 串 行 (List) 数据 ， 由 本 章 的 13-2 节 可 知 sapply O 函数 可 以 简化 传 回 
数据 。 


实例 13. 7 : 使 用 sapply O 函数 列 出 iris 数据 集 的 元 素 类 型 。 


> sapply(iris, class) 

Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
"numeric" "numeric" "numeric" "numeric" "factor" 

> 


实例 ch13_8 : 计算 每 个 字段 数据 的 平均 值 。 


> sapply(iris, mean) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
5.843333 3.057333 3.758000 1.199333 NA 
Warning message: 
In mean.default(X[[i]], ...2 : 
argument is not numeric or logical: returning NA 
> 


上 述 实例 虽然 计算 出 来 各 字段 的 平均 值 ， 但 出 现 了 Warning message， 主 要 是 “Species” 字 段 
是 内 容 是 因子 (Factor) 不 是 数值 。 为 了 解决 这 个 问题 ， 可 以 在 sapply O 函数 内 设计 一 个 函数 判 
断 各 字段 数据 是 否 数 是 值 ， 如 果 和 否则 传 回 NA。 
实例 ch13_9 : 优化 实例 ch13_8， 使 这 个 实例 不 会 有 Warning message 信息 。 

> sapplyCiris, function(y) ifelse Cis.numeric(y), mean(y), NA)) 

Sepal.Length Sepal.Width Petal.Length Petal.Width Species 


5.843333 3.057333 3.758000 1.199333 NA 
> 


请 特别 留意 iris 数据 集 的 Species 字段 的 数据 是 因子 ， 所 以 可 以 使 用 tapply O 函数 执行 各 类 
数据 运算 。 
实例 ch13_10 : 计算 说 尾 花花 瓣 长 度 的 平均 值 。 


> tapply(iris$Petal.Length, iris$Species, mean) 
setosa versicolor virginica 
1.462 4.260 5.552 


241 


242 


R 语言 一 一 迈 向 大 数据 之 路 


本 章 习 题 


一 、 判 断 题 


.使 用 apply () 函数 时 ， 如 果 对 象 数 据 是 矩阵 ， 若 第 2 个 参数 MARGIN 是 2， 则 代表 将 


计算 每 一 列 的 数据 ( Column )。 


.使 用 apply O 函数 时 ， 如 果 对 象 数 据 是 矩阵 ， 若 第 2 个 参数 MARGIN 是 1， 代 表 将 计 


算 每 一 行 的 数据 ( Row )。 


.使 用 sapply O 函数 后 ， 所 传 回 的 数据 是 串 行 ( List )。 


二 、 单 选 题 


C -Fi 


使 用 apply O 函数 时 ， 若 对 象 内 含 NA， 应 如 何 设 定 参数 ， 才 可 以 忽略 此 NA 产生 的 
影响 ? 


A. na.rm = TRUE B. na.rm = FALSE 

C. is.na = TRUE D. is.na = FALSE 
.下 列 哪 一 个 函数 主要 是 用 于 对 一 个 因子 或 因子 列表 ， 执 行 指定 的 函数 操作 ， 最 后 获 

得 汇总 信息 ? 

A. apply () B. sapply () C. lapply () D. tapply () 
. 有 如 下 函数 。 

1 ex <- function( ) 

2*1 

3 an «- matrix(c(8, NA, 6, 5, 7, 2, 10, 6, 8), ncol = 3) 

4 colnames(an) <- c("Tiger", "Lion", "Leopard") 

5  rownamesCan) <- c("Day 1", "Day 2", "Day 3") 

6 print(an) 

7 applyCan, 2, max, na.rm = TRUE) 

-H 

上 述 被 调用 后 ，Tiger 的 最 大 出 现 次 数 为 下 列 哪个 ? 

A. 10 B.NA C.8 D.7 
. 有 如 下 函数 。 


1 ex <- function( ) 


an <- matrix(c(8, NA, 6, 5, 7, 2, 10, 6, 8), ncol = 3) 
colnames(an) «- c("Tiger", "Lion", "Leopard") 
rownames(an) <- c("Day 1", "Day 2", "Day 3") 
printCan) 

applyCan, 2, max, na.rm = TRUE) 


co x0 Uu UN 


VE 
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上 述 函 数 被 调用 后 ，Lion 的 最 大 出 现 次 数 为 下 列 哪个 ? 


A. 10 B.NA C.8 D.7 
有 如 下 函数 。 

1 ex <- function( ) 

Ext 


3 an «- matrix(c(8, NA, 6, 5, 7, 2, 10, 6, 8), ncol = 3) 
4 colnames(an) <- c("Tiger", "Lion", "Leopard") 

-i rownames(an) <- cC"Day 1", "Day 2", "Day 3") 

6 print(an) 

7  opply(an, 2, max) 


8 } 

上 述 函 数 被 调用 后 ，Tiger 的 最 大 出 现 次 数 为 下 列 哪个 ? 

A. 10 B.NA C.8 D.7 
有 如 下 函数 。 

1 ex <- function( ) 

2- { 


3 an <- matrix(c(8, NA, 6, 5, 7, 2, 10, 6, 8), ncol = 3) 
4 colnames(an) «- c("Tiger", "Lion", "Leopard") 

5 rownames(an) «- c("Day 1", "Day 2", "Day 3") 

6 print(an) 

7  apply(an, 2, max) 

8 


} 
上 述 函 数 被 调用 后 ，Leopard 的 最 大 出 现 次 数 为 何 ? 
A. 10 B. NA C.8 D.7 


已 知 和 矩阵 a 的 内 容 如 下 所 示 。 


> a <- matrix(1:9, nrow = 3, byrow = TRUE) 
>a 
L1] [,2] [,3] 
1,3 1 2 3 
[2] 4 5 6 
1] 7 8 9 


若 想 要 知道 每 一 列 数据 的 和 ， 如 下 所 示 ， 则 可 以 使 用 以 下 哪 条 命令 ? 
[1] 12 15 18 


A. apply Ca, 1, sum ) B. apply ( a, 2, sum ) 
C. sum ( a) D. sum ( a[, 1:3]) 
已 知 矩 阵 a 的 内 容 如 下 所 示 。 

> a <- matrix(1:9, nrow = 3, byrow = TRUE) 

>a 


[1] [,2] [,3] 
mI i 2 3 
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( 


C. sum (a) D. sum (af, 1:3] ) 
)9. S F5 data.frame。 
» age «- c(26, 29, 29, 24, 25, 21, 23, 29) 
> gender <- c(W", "E", "M", "F", "WM", "F", "M", "F") 
> a <- data.frame(age, gender) 
>a 
age gender 
1 26 M 
2 29 F 
3 29 M 
4 24 F 
s 25 M 
6 21 F 
7 2 M 
8 29 F 
想 要 分 别 计算 男生 、 女 生 的 平均 年 龄 ， 如 下 所 示 ， 则 可 以 使 用 以 下 哪 条 命令 ? 
F M 
25.75 25.75 
A. mean (a $ age, by 2 a $ gender ) 
B. mean ( a[ "age" , "gender" ]) 
C. sapply (a, mean ) 
D. tapply (a $age, a $ gender, mean ) 
三 、 复 选 题 
) 1 有 如 下 函数 。 
1 ex <- function( deg, cust, unitPrice = 50 ) 
Ext 


若 想 要 知道 每 一 行 数据 的 和 ， 如 下 所 示 ， 则 可 以 使 用 以 下 哪 条 命令 ? 
[1] 6 15 24 


A. apply (a, 1, sum ) B. apply ( a, 2, sum ) 


3 listprice «- deg * unitPrice * 

4 ifelse (deg » 150, 0.8, 1) 

5 adj «- sapply(cust, switch, go - 0.8, co - 1.2, 1) 
6 finalprice <- listprice * adj 

7 round(finalprice) 

8 


下 列 哪些 是 正确 的 调用 函数 的 返回 结果 。( 选择 2 项 ) 


A. > de «- c(80, 80, 200, 200) 
» Cu «- c("go", "co", "co", "fa") 
» ex(de, cu) 
go co co fa 
3200 4800 9600 8000 
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B. > de «- c(70, 70, 300, 300) 


» ex(de, cu) 
go co co fa 
3150 3850 13200 12000 


co co co go 
2750 2750 22000 18000 


D. » de «- c(60, 60, 250, 250) 


» ex(de, cu) 
co go fa fa 
3000 1600 8000 8000 


四 、 实 际 操作 题 ( 如 果 题 目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 


1. 


请 重新 设计 实例 ch13_1.R， 并 自行 设 定 未 来 30 天 动物 的 出 现 次 数 ， 同 时 执行 下 列 运 算 。 
C1) 列 出 各 动物 的 最 大 出 现 次 数 。 

(2) 列 出 各 动物 的 最 小 出 现 次 数 。 

(3 ) 列 出 各 动物 的 平均 出 现 次 数 。 

请 重新 设计 实例 ch13_1.R， 并 自行 设 定 未 来 30 天 动物 的 出 现 次 数 ， 同 时 请 设 定 各 动物 有 一 
天 的 出 现 次 数 是 NA， 执 行 下 列 运算 。 

C1) 列 出 各 动物 的 最 大 出 现 次 数 。 

(2) 列 出 各 动物 的 最 小 出 现 次 数 。 

(3) 列 出 各 动物 的 平均 出 现 次 数 。 

请 参考 实例 ch13_5.R， 用 tapply O 函数 ,执行 计算 对 于 美国 4 大 区 的 下 列 运 算 。 

(1) 人 口 数 各 是 多 少 。 

(2) 面积 各 是 多 少 。 

(3 ) 平均 收入 是 多 少 。 
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认识 文件 夹 


在 进行 程序 设计 时 ， 可 能 常 需要 将 执行 结果 储存 至 某 个 文件 夹 ， 本 节 笔 者 将 介绍 文件 夹 的 相 
关 知 识 。 


14-1-1 getwd O 函数 


getwd 0 函数 可 以 获得 目前 的 工作 目录 。 
实例 ch14_1 : 获得 目前 的 工作 目录 。 


> getwd() 
[1] "c:/users/Jiin-Kwei /Documents " 
> 


14-1-2 setwd () 函数 


setwd () 函数 可 以 更 改 目 前 的 工作 目录 。 
实例 ch14_2 : 将 目前 的 工作 目录 更 改 为 “D:/RBook”。 


> setwd("D:/RBook") 
> getwd() 

[1] "D:/RBook" 

- 


14-1-3 file.path O 函数 


file.path O 函数 的 主要 功能 类 似 于 paste O 函数 ， 只 不 过 这 个 函数 是 将 片段 数据 路 径 组 合 起 来 。 
实例 ch14_3 : 将 片段 路 径 组 合成 一 个 完整 路 径 。 


> file.path("D:", "Users", "j3iin-Kwei", "Documents") 
[1] "p:/users/Jiin-Kwei /Documents" 
> 
实例 ch14_4 : 使 用 file.path () 函数 ， 更 改 目 前 工作 目录 。 
> setwd(file.path("c:", "Users", "Jiin-Kwei", "Documents")) 
» getwd( 


e] 
[1] "c:/Users/3iin-Kwei /Documents" 
- 


14-1-4 dir O 函数 
dir O 函数 可 列 出 某 个 工作 目录 底下 的 所 有 文件 名 以 及 子 目录 名 称 。 
实例 ch14_5 : 列 出 “C:/” 目 录 底 下 的 所 有 文件 名 以 及 子 目录 名 称 。 


> dir(path = "c:/") 
[1] "SRecycle.Bin" "BOOTNXT" 
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[3] "bocuments and settings" "Dolby PCEE4" 
[5] "Elements" "ETAX" 
[7] "Faststone Capture 4.8 portable" "Faststone76 Capture" 
[9] "Fscapturesetup76. exe" "hiberfil.sys" 
[11] "zntel" "M1120. log" 
[13] "Msocache" "OEM" 
[15] "pagefile.sys" "PerfLogs" 
[17] "Program Files" "Program Files (x86)" 
[19] "ProgramData" "Recovery" 
[21] "superTsc" "swapfile.sys" 
[23] "system volume Information" "Users" 
[25] "windows" 
> 
使 用 dir O 函数 时 也 可 以 省 略 “path =”。 
实例 ch14_6 : 用 省 略 “path =” 的 方式 ， 列 出 “C:/” 目 录 底 下 的 所 有 文件 名 以 及 子 目录 名 称 。 
> dir("c:/") 
[1] "SRecycle.Bin" "BOOTNXT" 
[3] "bocuments and settings" "Dolby PCEE4" 
[5] "Elements" "ETAX" 
[7] "Faststone Capture 4.8 portable" "Faststone76 Capture" 
[9] "Fscapturesetup76. exe" "hiberfil. sys" 
[11] "Intel" "M1120. log" 
[13] "Msocache" "OEM" 
[15] "pagefile.sys" "PerfLogs" 
[17] "Program Files" "Program Files (x86)" 
[19] "ProgramData" "Recovery" 
[21] "superrsc" "swapfile.sys" 
[23] "system volume Information" "users" 
[25] "windows" 
> 
14-1-5 list.files () 函数 


listfiles () 函数 功能 和 dir O 函数 相同 ， 


名 称 。 


实例 ch14_7 : 列 出 “C:/” 


> list.files("c:/") 


[1] 


"Faststone Capture 4.8 portable" 
"FSCaptureSetup76. exe" 


可 以 列 出 某 个 工作 目录 底下 的 所 有 文件 名 以 及 子 目 录 


目录 底下 的 所 有 文件 名 以 及 子 目录 名 称 。 


"$Recycle.Bin" "BOOTNXT" 
"Documents and Settings" "Dolby PCEE4" 
"Elements" "ETAX" 


"Faststone76 Capture" 
"hiberfil.sys" 


"Intel" "M1120. log" 
"MSOCache" "OEM" 

"pagefile.sys" "PerfLogs" 

"Program Files" "Program Files (x86)" 
"ProgramData" "Recovery" 

"superTsc" "swapfile.sys" 
"system volume Information" "users" 

"windows" 


实例 ch14_8 : 列 出 “D:/ofice2013” 目 录 底 下 的 所 有 文件 名 以 及 子 目录 名 称 。 


> list.dirs("D:/office2013") 


[1 " 
[4] 










"D: /office2013" 
"p: /Ooffice2013/ch15" 


D: /Office2013/che6" 





D: /Office2013/ch7" 
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14-1-6 file.exist () 函数 


file.exist () 函数 可 检查 指定 的 文件 是 否 存在 ， 如 果 是 则 返回 TRUE， 如 果 和 否则 返回 FALSE。 
实例 ch14_9 : 检查 指定 的 文件 是 否 存在 。 


> file.exists("C:/test") 

[1] FALsE 

> file.exists("C: /widows") 
[1] FALSE 

> file.exists("c:/M1120. log") 
[1] TRUE 

> 


14-1-7 file.rename () 函数 


file.rename () 函数 可 以 更 改 文件 名 。 
实例 ch14_10 : 将 tmp2-1.jpg 的 文件 名 改 成 tmp.jpg。 


> dir("D:/RBook") 
n ^ "Ch14- E jpg" 





[6] " 

nij" " 

[16] " " 

[21] “tmp3 j 

[26] “tmp8. jpg" 3 .jpg” 

> file.rename("D; /RaGoRAE2- -1.jpg", "D:/RBook/tmp. jpg") 
[1] TRUE 

> dirf D: /RBook" E HIVER 


"ch14-11. jpg" "chi4-12.jpg" "ch14-13.jpg" 
"chi4-4.jpg" “ch14-5. jpg”  "chi4-6.jpg" 
"chi4-9.jpg" "chi4 20.R" "chi4_21.R” 
"tmpl.jpg" “tmp10. jpg" — "tmp2.jpg" 
"tmp5. jpg" "tmp6. jpg" tmp7. jpg 





[26] "tmps.jpg" ^ "tmp9.jpg" 


由 验证 结果 可 以 看 到 我 们 已 经 成 功 将 tmp2-1.jpg 文件 的 名 称 改 成 tmp.jpg T o 


14-1-8 file.create () 函数 


file.create () 函数 可 以 建立 文件 。 
实例 ch14_11 : 在 “D:/RBook” 目 录 下 建立 “ampletxt” 文 件 。 


> file.create("D: /RBook/sample.txt") 








[1] TRUE 

> dir("D:/RBook") 

n)" "chi4-12.jpg" "chl4-13.jpg" 
[e] " hi4-S.jpg" “ch14-6. jpg" 
nij" "chl4 21.R" 
[16] "sample.txt" “tmp. jpg” Ttmpl.jpg"  "tmplo.jpg" — "tmp2.jpg" 
[21] "tmp3.jpg" "tmp4.jpg" "tmp5.jpg" “tmp6.jpg tmp7.jpg 


[26] "tmps.jpg"  “tmp9. jpg" 
> 


14-1-9 file.copy O 函数 


file.copy O 函数 可 进行 文件 的 复制 ， 这 个 函数 会 将 第 1 个 参数 的 原 目录 文件 复制 到 第 2 个 参 
数 的 目的 目录 文件 。 如 果 想 要 了 解 更 多 参数 细节 则 可 参考 “help (file.copy )”。 
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实例 ch14_12 : 原先 在 “D:/RBook” 目 录 内 不 含 “newsam.txt”， 现 将 sample.txt 文件 内 容 复 制 至 


« » 
newsam.txt o 


> file.copy("D:/RBook/sample.txt", "D:/RBook/newsam.txt") 
[1] TRUE 

> dir("D:/RBook") 

[1] "chi4-i.jp 
[6] "chi4-4.jpg 
[11] "chi4-9.jpg" 
> 









chi4-2.jpg"  "chi4-3.jpg" 
chi4-7. jpg” "chi4-8.jpg" 





14-1-10 file.remove () 函数 


file.emove () 函数 可 删除 指定 的 文件 。 
实例 ch14_13 : 删除 “D:/RBook” 目 录 底 下 的 文件 “newsam.txt”。 


> dir("D:/RBook") 
[1] "chi4-1.jpg"  "chi4-10. jpg" "chi4-11.jpg" "chi4-12.jpg" "chi4-13. jpg" 

















[6] "ch14-4. jpg" chi4-6. jpg" 
[11] h14-9. jpg ch14. 21. R" 
[16] "newsam.txt sample.txt tmp. jpg" "tmpl.jpg" tmp10. jpg" 
[21] "tmp2.jpg" "tmp3.jpg" "tmp4.jpg" "tmp5.jpg"  — "tmp6.jpg" 
[26] "tmp7.jpg tmp8. jpg tmp9. jpg 
» file.remove("D: /RBook/newsam. txt") 

[1] TRUE 
> dirC D: ssl ") 

mu ch14-13. jpg" 
[6] ch14-6. jpg" 
[11] chi4 21.R 
[16] "sample.txt" "tmp. jpg" "tmp1. jpg” “tmp10. jpg" "tmp2. jpg" 
[21] "tmp3.jpg"  — "tmp4.jpg tmp5. jpg tmp6. jpg "tmp7. jpg" 
[26] "tmp8.jpg"  “tmp9. jpg" 


> 


数据 输出 cat () 函数 


cat () 可 以 在 屏幕 或 文件 输出 R 语言 的 计算 结果 数据 或 是 一 般 输 出 数据 。 它 的 使 用 格式 和 各 


参数 意义 如 下 所 示 。 
cat ( 系列 变量 或 字符 串 ,fle =“”,sepbp — " " , append = FALSE) 
D 系列 变量 或 字符 串 : 指 一 系列 欲 输出 的 变量 或 字符 串 。 
口 file : 欲 输出 到 外 部 文件 时 可 在 此 输入 目的 文件 路 径 和 文件 名 ， 若 省 略 则 表示 输出 到 屏幕 。 


O append : 默认 是 FALSE， 表 示 若 欲 输出 到 的 目的 文件 已 存在 ， 将 覆盖 原文 件 。 如 果 是 TRUE, 


则 将 欲 输出 的 数据 附加 在 文件 未 端 。 
实例 ch14_14.R : 使 用 cat O 函数 执行 基本 的 屏幕 输出 任务 。 





i E 

2 # 实例 ch14_14.R 

3 # 

4 chl4_14 <- function( ) 
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mt 
6 cat("R Language") 
m cat("^n") # 换 行 打印 
8 cat("A road to Big Data\n") 
9 x «- 10 
10 y <- 20 
11 cat(x, y, "\n") # 默 认 是 空 1 格 
12 Cat(X, y, X«y, sep = " ") SHInSHnmYX 
13 cat("Nn") 
14 cat(x, y, "X+y=", x+y) 
15 ] 
[ 执行 结果 ] 
> source('-/Rbook/ch14/ch14 14.R') 
> chi4 14() 
R Language 
A road to Big Data 
10 20 
10 20 30 
10 20 x+y= 30 
> 


上 述 输 出 “\n”"， 相 当 于 是 换行 打印 。 如 果 没 有 加 上 打印 “\n”"， 则 下 一 个 打印 数据 将 接着 前 一 


个 数据 的 右边 打印 ， 而 不 会 自动 换行 打印 。cat O 函数 也 可 用 于 打印 向 量 对 象 ， 可 参考 下 列 实例 。 
实例 ch14_15.R : 使 用 cat O 函数 打印 向 量 对 象 的 应 用 实例 。 此 外 ， 本 程序 实例 所 打印 的 向 量 对 
象 是 第 7 章 所 建 的 数据 ， 这 个 数据 必须 在 Workspace 工作 区 内 ， 本 程序 才 可 正常 执行 。 


实例 ch14_15.R 


h14.15 <- function( ) 


mott 


cat(mit.Name, "\n") 

cat(mit.Gender, “\n") 

cat(mit.Height, "\n") 
$ 


1: 0 O0 U UN M 
+ 


[执行 结果 ] 


种 
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> Source('~/Rbook/ch1i4/ch14_15.R') 
> chi4.15() 

Kevin Peter Frank Maggie 

MMMF 

170 175 165 168 

> 


cat () 函数 是 无 法 正常 输出 其 他 类 型 数据 的 ， 下 列 是 尝试 输出 数据 框 ( 也 是 串 行 List 的 一 
失败 的 实例 。 


> cat(mit.info) 

Error in cat(list(...), file, sep, fill, labels, append) : 
"cat ”目前 还 不 能 用 1 参数 (类 型 “list') 

> 
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如 果 想 打印 R 对 象 ， 一 般 可 以 使 用 之 前 已 大 量 使 用 的 print O 函数 。 
实例 ch14_16.R : 将 一 般 数 据 输出 至 文件 ， 本 实例 会 将 数据 输出 至 目前 工作 目录 的 “tech14_16. 
txt” 文 件 内 。 


LÀ 
# 实例 ch14_16.R 
LÀ 
chi4 16 <- function( ) 
gt 
cat("R language Today", file = "-/tch14 16.txt") 
} 


"oubuNm 


[ 执行 结果 ] 


> source('-/Rbook/ch14/ch14 16.R') 
> chi4 16() 


此 时 如 果 检 查 目 前 的 工作 目录 ， 可 以 看 到 “tech14_16.txt” 文 件 ， 同 时 如 果 单 击 该 文件 ， 则 可 
以 看 到 文件 内 容 “R Language Today”， 如 下 图 所 示 。 


| ch2 2.Rhistory 
$ ch11.RData 
B3] Rbook > 
周 Rdrink.xlsx 

.'" RdrinkCSV.csv 

入 Stuffit is 
*ouR 
B tch14_16.txt 





R Language Today 












上 述 程序 第 6 行 的 “~/” 的 符号 ， 代 表示 目前 的 工作 目录 。 


读 取 数据 scan () 函数 


使 用 scan O 函数 可 以 读 取 屏 幕 输入 或 外 部 文件 的 数据 ， 结 束 读 取 屏 幕 输入 时 可 以 直接 按 
Enter 键 ， 它 的 使 用 格式 和 各 参数 意义 如 下 所 示 。 
scan (file =“”,what = double () ,namx= -1,n=-l1,sep=“ 
skip = 0, nlines = 0, na.strings = “NA” ) 
更 详细 的 scan O 函数 可 参考 help ( scan )- 
D file : 所 读 的 文件 ， 如 果 不 设 定 则 代表 读 取 屏 幕 输入 。 
O what: 可 设 定 输入 数据 的 类 型 ， 默 认 是 双 倍 精确 实数 ， 可 以 是 整数 ( Integer)， 字 符 
( Character )， 逻 辑 值 ( Logical )， 复 数 ( Complex )， 也 可 以 是 串 行 (List ) 数据 。 


O nmax : 限定 读 人 多 少数 据 ， 默 认 是 -1， 表 示 无 限制 。 
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O n : 设 定 总 共 要 读 多 少数 据 ， 默 认 是 -1， 表 示 无 限制 。 

O sep: 数据 之 间 的 分 隔 符 ， 默 认 是 空格 或 换行 符 。 

口 skip : 设 定 跳 过 多 少 行 才 开 始 读 取 ， 默 认 是 0。 

口 nlines : 如 果 是 正 数 则 表示 设 定 最 多 读 人 多少 行 数据 。 

口 nasstrings : 可 以 设 定 遗 失 值 ( Missing Values ) 的 符号 ， 默 认 是 NA。 
实例 ch14_17.R : 输入 数值 与 字符 的 应 用 实例 。 


实例 ch14_17.R 


h14_17 <- function( ) 


* 


mort 


cat(" 请 输入 数值 数据 ， 若 想 结束 输入 ， 可 直接 技 Enter") 
X1 <- scan() 

cot(xl, "\n") 

cat(" 请 输入 字符 数据 ， 若 想 结束 输入 ， 可 直接 按 Enter") 
X2 <- scan(what = character()) 

cat(x2) 


BESooxousumwe 


- 


[ 执行 结果 ] 


> source('-/Rbook/ch14/ch14 17.R') 

> chi4 17( ) 

请 输入 数值 数据 ， 若 想 结束 输入 ， 可 直接 技 Enter 
1: 98.5 

2: 77.4 

3: 80 

4: 

Read 3 items 

98.5 77.4 80 

请 输入 字符 数据 ， 若 想 结束 输入 ， 可 直接 技 Enter 


DA 
Py 
t 
ead 3 items 
yt 


PWUNPp 


当 上 述 程序 要 求 输入 第 4 个 数据 时 ， 笔 者 按 Enter 键 ， 可 以 结束 调用 scan O 函数 。 
实例 ch14 18.R : 读 取 外 部 文件 数据 的 应 用 实例 ， 在 这 个 实例 中 ， 笔 者 尝试 将 各 种 可 能 情况 作 实 
例 说 明 。 本 实例 的 数据 文件 内 容 如 下 所 示 。 
ch14_18testl.txt 





119.0 213 338 888 197 


(f. ch14 17.R 
(f ch14 18.R 
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chl4 18test2.txt 

















f ch14 14.R 19:8 
ff chl4 15.R 23 
f ch14_16.R 338 
ff ch14_17.R T 
ff, ch14_18.R 
|5 ch14_18test1 

ch14_18test3.txt 
[ 同 ch14_14.R 
(f ch14_15.R Mr 
ff^ ch14 16.R 338 888 
ff ch14_17.R id 
ff ch14 18.R 


(^ chl4 l&testl 
[5 chl4 l8test2 
[E 











chl4_18test4.txt 





[F ch14_14.R 
(f. ch14_15.R 
ff ch14 16.R 
ff ch14 17.R 
(f ch14_18.R 
[© ch14_18test1 
(5 chl4 18test2 
[5 ch14_18test3 


119.0, 213, 338, 888, 197 

















| ch14_18test4 | 
1 s 
2 # 实例 ch14-_18.R 
3 8 
4 ch1418 <- function( ) 
Sg í 
6 Xl <- scanÇ"~/Rbook/ch14/ch14_18test1.txt") 
Z cat(x1, "^n") 
8 x2 <- scan("~/Rbook/ch14/ch14_18test2.txt") 
9 cat(x2, “\n") 
10 X3 <- scan("~/Rbook/ch14/ch14_18test3.txt") 
11 catOG, "\n") 
12 x4 <- scan("~/Rbook/ch14/ch14_18test4.txt", sep = ",") 
13 coat(x4, "逗号 是 分 隔 符 \n") 
14 x5 <- scan("~/Rbook/ch14/ch14_18test2.txt", skip = 3) 
15 ”catCx5," 跳 3 列 \n") 
16 X6 <- scan("-/Rbook/chi4/chi4 18test2.txt", skip = 2, nlines = 1) 
17 cat(x6,“ 跳 2 列 读 1 列 \n") 
18} 


255 
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[执行 结果 ] 


> Source(' ^/Rbook/ch14/ch14 18.R') 
> chi4 18&( ) 

Read 5 items 

119 213 338 888 197 

Read 5 items 

119 213 338 888 197 

Read 5 items 

119 213 338 888 197 

Read 5 items 

119 213 338 888 197 去 号 是 分 隔 符 
Read 2 items 

888 197 跳 3 栏 

Read 1 item 

338 跳 2 列 读 1 列 


> 


KD 输出 数据 write O 函数 


write () 函数 可 以 将 一 般 向 量 或 矩阵 数据 输出 到 屏幕 或 外 部 文件 ， 这 个 函数 的 使 用 格式 如 下 所 
7R o 
write ( x, file = "data" , ncolumns = k, append = FALSE, sep = " ") 
O x : 要 输出 的 向 量 或 矩阵 。 
O file : 输出 至 指定 文件 ， 如 果 是 “” 则 代表 输出 至 屏幕 。 
口 ncolumns : 指定 输出 数据 排 成 几 列 ， 默 认 如 果 是 字符 串 则 按 1 列 输出 ， 如 果 是 数值 数据 则 按 5 
列 输出 。 
O append : 默认 是 FALSE， 如 果 是 TRUE， 则 在 原文 件 有 数据 时 ， 将 输出 数据 接 在 原 数 据 后 面 。 
口 sep : 设 定 各 数据 间 的 分 隔 符 。 


实例 ch14_19.R : 调用 write O 函数 输出 向 量 和 和 矩阵 数据 的 应 用 实例 。 


# 

# 实例 ch14_19.R 

# 

chi4 19 <- function( ) 


write(letters, file = "", ncolumns = 5)  # 输 出 至 屏幕 有 5 列 
write(letters, file = "") # 输 出 至 屏幕 有 1 列 
write(letters, file = "-/Rbook/chi4/ch14 19testl.txt", ncolumns = 5) 
write(letters, file = "-/Rbook/chi4/chl4 19test2.txt") 

10 x1 <- 1:10 

11 write(x1, "", ncolumns = 4, sep = ",") 

12 x2 <- matrix(1:10, nrow = 2) 

13 write(x2, file = "", ncolumns = 5) 


(0040UbPUNIMÓ 
1 
ma 


CHAPTER 14 输入 与 输出 


[执行 结果 ] 


> source('-/Rbook/ch14/ch14. 19.R') 
> chi4 19) 

abcde 

fghij 

kimno 

parst 

uvwxy 

z 

a 

b 


以 上 只 是 部 分 输出 结果 ， 此 外 在 目前 的 工作 目录 ， 可 以 得 到 以 下 两 个 文件 ， 分 别 是 
chl4 I9testl.xt 和 ch14_19test2.txt， 如 下 图 所 示 。 


f. ch14_14.R 





a 

- 

= 

P 

t 

o 

ad 
NCOox-^ 
*«20coc 
£457n0n 
xusra 
< eoum 


f ch14_18.R 
|^ ch14_18test1 
$ ch14_18rest2 
|^ ch14_18test3 


ch14_18test4 





f. ch14_14.R 
ff ch14_15.R 
(f. ch14_16.R 
ff. ch14_17.R 
(f. ch14_18.R 
ch14_18test1 
ch14_18test2 
ch14_18test3 
ch14_18test4 
ch14_19.R 
ch14_19test1.txt 





PETE 





los5coxercso-nanco 





数据 的 输入 


实用 的 数据 一 般 均 是 以 窗 体 或 电子 表格 的 方式 呈现 ， 本 节 将 针对 读 取 这 类 数据 作 说 明 。 


14-5-1 读 取 剪贴 板 数据 
有 些 数据 可 以 将 它 先 复制 ， 复 制 后 这 些 数据 可 以 在 剪贴 板 上 看 到 ， 然 后 再 利用 readClipboard () 





R 语言 一 一 迈 向 大 数据 之 路 


函数 读 取 。 例 如 ， 在 Excel 内 看 到 下 图 中 的 数据 ， 假 设 你 选择 了 C1:D5， 然 后 将 它 复制 到 剪贴 板 。 


Q readClipboard () 函数 不 支持 Mac OS 系统 。 











A B € D E F G H 
1 [Name |Year Product Price Quantity Revenue Location 
2 Diana 2015 Black Tea 10 600 6000 New York 
3 |Diana 2015 Green Tea 7 660 4620 New York 
4 Diana 2016 Black Tea 10 750 7500 New York 
5 Diana 2016 Green Tea 7 900 6300 New York 
6 Julia 2015 Black Tea 10 1200 12000 New York 
7 Julia 2016 Black Tea 10 1260 12600 New York 
8 Steve 2015 Black Tea 10 1170 11700 Chicago 
9 Steve 2015 Green Tea 7 1260 8820 Chicago 
10 Steve 2016 Black Tea 10 1350 13500 Chicago 
11 Steve 2016 Green Tea 7 1440 10080 Chicago 





实例 ch14 20.R : 读 取 剪 贴 板 数据 。 


实例 ch14_20.R 


h14.20 <- function( ) 


mart 


x <- readClipboard() 
print(x) 
} 


co xo0ounxumre 
E 


[执行 结果 ] 
> source('—/.active-rstudio-document', encoding = 'UTF-8') 


> chi4 20() 
[1] "Product tPrice" "Black Tea Xt10" “Green Tea\t7” — "Black Tea Xt10" 


EL "Green Tea\t7" 

由 上 述 执行 结果 可 以 看 到 我 们 成 功 地 读 取 了 剪贴 板 的 文件 了 ,但 如 果 细 看 则 可 以 了 解 所 读 的 
数据 有 些 乱 ， 同 时 看 到 了 “\t” 符 号 ， 这 是 构成 电子 表格 的 特殊 字符 ， 所 以 如 果 想 要 将 电子 表格 数 
据 转 成 R 语言 可 以 处 理 的 数据 ,那么 还 需要 一 些 步骤 ， 后 面 小 节 会 作 说 明 。 


14-5-2 ” 读 取 剪贴 板 数据 read.table O 函数 


read.table () 函数 配合 适当 参数 是 可 以 读 取 剪贴 板 数 据 ， 这 个 函数 的 使 用 格式 有 些 复杂 ， 在 此 
笔者 只 列 出 几 个 重要 的 参数 。 
O file : 欲 读 取 的 文件 ， 如 果 是 读 剪 贴 板 则 是 输入 “clipboard”。 
O sep : 数据 元 素 的 分 隔 符 ， 由 上 一 小 节 可 知 Excel 的 分 隔 符 是 “\ 。 
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O header : 可 设 定 是 否 读 取 第 1 行 ， 这 行 通 常 是 数据 的 表 头 ， 默 认 是 FALSE。 
在 执行 下 列 实例 前 请 将 A1:G11 数据 复制 至 剪贴 板 。 
实例 ch14_21.R : 使 用 read.table () 函数 读 取 剪 贴 板 数据 。 


c^ E 3E 


DA 四 wwNP 
1 


) 


[ 执行 结果 ] 


14-5-3 WIN Excel 文件 数据 


若 想 要 读 取 Excel 文件 ， 可 以 使 用 XLConneet 扩展 包 来 协助 完成 这 个 工作 ,但 首先 要 下 载 安 
装 这 个 扩展 包 ， 可 参考 下 列 步骤 。 


下 | 


> source('D:/RBook/ch14. 21.R') 


> chi4. 210) 


Name 
1 Diana 
2 Diana 
3 Diana 
4 Diana 
5 Julia 
6 Julia 
7 steve 
8 steve 
9 steve 


Year 
2015 
2015 
2016 
2016 
2015 
2016 
2015 
2015 
2016 
2016 


实例 ch14_21.R 


h14_21 <- function( ) 


x <- read.table(file = "clipboard", sep = "Mt", header = TRUE) 
print(x) 


Product Price Quantity Revenue Location 


Black Tea 
Green Tea 
Black Tea 
Green Tea 
Black Tea 
Black Tea 
Black Tea 
Green Tea 
Black Tea 
Green Tea 


10 
7 
10 
7 
10 
10 
10 
7 
10 
7 


» install.packages("XLConnect") 
尝试 URL 'http://cran.rstudio.com/bin/macosx/contrib/3.2/XLConnect. 0.2-11.tgz" 
Content type 'application/x-gzip' length 4970883 bytes (4.7 MB) 


600 
660 
750 
900 
1200 
1260 
1170 
1260 
1350 
1440 


6000 New York 
4620 New York 
7500 New York 
6300 New York 
12000 New York 
12600 New York 
11700 chicago 
8820 chicago 
13500 chicago 
10080 chicago 





downloaded 4.7 MB 


The downloaded binary packages are in 


/var/folders/4y/b198hggj1aj. 4qfvnrctdp240000gn/T//Rtmp1VBKyI/downloaded. packages 


> 


接着 执行 将 XLConnect 加 载 到 数据 库 的 代码 。 


> library("XLConnect") 


> 


现在 我 们 可 以 正常 处 理 Excel XT, 下列 是 读 取 Reportxlsx 的 实例 ， 此 Excel 文件 的 内 容 如 





图 所 示 。 
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B Enna ve n 3 F G 
Year Product Price Qiy Revenue Location 
2015 Black Tea 10 6000 New York 
2015 Green Tea 7 A 4620 New York 
2016 Black Tea 10 750 7500 New York 
2016 Green Tea 7 900 6300 New York 
2015 Black Tea 10 1200 12000 New York 
2016 — Black Tea 10 1260 12600 New York 
2015 Black Tea 10 1170 11700 Chicago 
2015 Green Tea 7 1260 8820 Chicago 
2016 — Black Tea 10 1350 13500 Chicago 
2016 — Green Tea 7 1440 10080 Chicago 

















实例 chi4 22 : 读 取 Excel 文件 Reportxlsx。 首 先 使 用 file.path () 函数 设 定 这 个 文件 的 所 在 路 
径 ， 然 后 调用 readWorksheetFromFile () 函数 读 取 文件 内 容 。 





> excelchi4 «- 


file.path("-/Rbook/ch14/Report.xlsx") 


> excelresult <- readWorksheetFromFile(excelchl4, sheet = "Sheet1") 


> 


[ 执行 结果 ] 

> excelresult 

Name Year Product Price Quantity Revenue Location 
1 Diana 2015 Black Tea 10 600 6000 New York 
2 Diana 2015 Green Tea 7 660 4620 New York 
3 Diana 2016 Black Tea 10 750 7500 New York 
4 Diana 2016 Green Tea 7 900 6300 New York 
5 Julia 2015 Black Tea 10 1200 12000 New York 
6 Julia 2016 Black Tea 10 1260 12600 New York 
7 Steve 2015 Black Tea 10 1170 11700 Chicago 
8 Steve 2015 Green Tea 7 1260 8820 Chicago 
9 Steve 2016 Black Tea 10 1350 13500 Chicago 


2 


v 


ð Steve 2016 Green Tea y 1440 10080 Chicago 


E38 readWorksheetFromFile () 函数 的 主要 功能 是 可 读 取 指定 路 径 的 Excel 文件 。 以 下 是 使 用 
str () 函数 了 解 更 多 excelresult 对 象 的 相关 信息 。 


> str(excelresult) 


'data.frame' : 

$ Name chr 
$ Year num 
$ Product : chr 
$ Price : num 
$ Quantity: num 
$ Revenue : num 
$ Location: chr 
> 


19 obs. of 7 variables: 


"Diana" "Diana" "Diana" "Diana" ... 

2015 2015 2016 2016 2015 ... 

"Black Tea" "Green Tea" "Black Tea” "Green Teo" ... 
10 7 10 7 10 10 10 7 10 7 

600 660 750 900 1200 1260 1170 1260 1350 1440 
6000 4620 7500 6300 12000 ... 

"New York" "New York" "New York" "New York" ... 


14-5-4 认识 CSV 文件 以 及 如 何 读 取 Excel 文件 数据 


所 谓 的 CSV 文件 是 指 同一 行 (Row ) 的 文件 彼此 用 逗号 分 隔 ， 同 时 每 一 行文 件 在 原始 文件 中 单 
独占 据 一 行 。 nn 所 以 这 种 文件 格式 得 到 了 广泛 的 支持 。 


接着 我 们 必须 
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储存 成 CSV 格式 。 请 留意 下 图 中 的 格式 字段 是 选择 “以 逗 点 分 开 的 数值 ( .csv )”。 





























AA : [ReponiCSV 13 
EED (ios s) (a 
|5 ch2 2.Rhistory Bg chll > 7 «hI4 I&.K 
[9 ch11.RData B3 cn12 p © Chl4 l&testl 
data B3 cn13 p ^ Chl4 l&test2 
Rbook * [3 chl4 » ch14_l8test3 
7. Rdrink.xlsx ch14 l8test4 
RdrinkCSV.csv *. chl4 19.R 
Stuffit » ch14 lStestl.bxt 
tR ch14 l9test2.txt 
tch14 16.txt *. chl4 20.R 
test 多 chl4 2LR 
test T Report.xlsx 
lest 2 E * test.R 
格式 :| 以 去 点 分 开 的 数值 (csv) 9 











上 述 操 作 执行 完 后 ， 可 以 建立 ReportCSV.csv 文件 ， 然 后 我 们 可 以 使 用 read.csv O 函数 读 取 
这 个 文件 的 数据 ， 这 个 函数 的 基本 使 用 格式 和 各 参数 意义 如 下 所 示 。 
read.csv (file, header = TRUE, sep = "," , quote = "V", dec = “.” +) 
D file : 以 esv 为 扩展 名 的 文件 。 


口 header : 文件 的 第 1 行 是 变量 名 称 ， 默 认 是 TRUE. 
O sep : 数据 分 隔 符 ， 对 于 CSV 文件 而 言 默 认 是 “,”。 
O quote : 字符 两 边 是 用 双 引 号 。 
O dec : 指定 小 数 点 格式 ， 默 认 是 “.”。 
读者 可 以 使 用 help (read.csv ) 获得 更 完整 的 使 用 说 明 。 
实例 ch14_23 : 使 用 read.csv () 函数 读 取 ReportCSV.csv 文件 。 


> excelCSV <- file.path("~/Rbook/ch14/ReportCSV.csv") 
> XCSV <- read.csv(excelCSV, sep = " 


[ 执行 结果 ] 


> XCSV 

Name Year Product Price Quantity Revenue Location 
Diana 2015 Black Tea 600 6000 New York 
Diana 2015 Green Tea 660 4620 New York 
Diana 2016 Black Tea 750 . 7500 New York 
Diana 2016 Green Tea 900 . 6300 New York 
Julia 2015 Black Tea 1200 12000 New York 
Julia 2016 Black Tea 1260 12600 New York 
Steve 2015 Black Tea 1170 11700 Chicago 
Steve 2015 Green Tea i260 8820 Chicago 
Steve 2016 Black Tea 1350 13500 Chicago 
iQ Steve 2016 Green Tea 1440 10080 Chicago 


|]uooxOousumme 
NSNSSSNSNS 


v 
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使 用 str O 函数 验证 这 个 文件 。 


> strCxCSV) 


'data.frame': 19 obs. of 7 variables: 
$ Name : Factor w/ 3 levels "Diana","Julia",..: 111122 3333 
$ Year : int 2015 2015 2016 2016 2015 2016 2015 2015 2016 2016 


$ Product : Factor w/ 2 levels "Black Tea","Green Tea: 1212111212 
$ Price : int 107 10 7 10 10 10 7 10 7 

$ Quantity: int 600 660 750 900 1200 1260 1170 1260 1350 1440 

$ Revenue : int 6000 4620 7500 6300 12000 12600 11700 8820 13500 10080 

$ Location: Factor w/ 2 levels "Chicago","New York: 2222221111 

> 


除了 CSV 文件 外 ， 以 分 号 “;” 分 隔 的 文件 被 称 为 CSV2 文件 ， 它 的 扩展 名 是 csv2， 你 可 以 使 
用 read.csv2 () 函数 读 取 它 。 


14-5-5 认识 delim 文件 以 及 如 何 读 取 Excel 文件 数据 


delim 文件 是 指 以 TAB 键 分 隔 的 文件 数据 ， 这 类 文件 的 扩展 名 是 xt, EPEL Report.xlsx 文件 
为 例 ， 将 这 个 文件 转 存 为 Reportdelim.txt。 接 着 我 们 必须 思考 如 何 将 Excel 文件 的 数据 转 成 delim 
文件 格式 ， 可 在 Excel 窗口 直接 将 文件 储存 成 txt 格式 。 请 留意 下 图 中 的 格式 字段 是 选择 “Tab 分 
隔 的 文字 Cox". 





























储存 为 : |Reportdelim J&J 
E ES (io :) a 
[T^ eh2 2-Rhistory 全 chll * 两 ch14_14.R 
[9 ch11.RData @ ch12 * 两 ch14_15.R 
data Bg ch13 * * chl4 16.R 
Rbook * [3 ch14 9 两 ch14_17.R 
Rdrink.xlsx 两 ch14_18.R 
RdrinkCSV.csv ch14 1l8testl 
Stuffit LI ch14_18test2 
UR ch14_18test3 
tch14 16.1xt chl4 l&test4 
M test * chl4 19.R 
test ch14 l9testl.«t 
test2 o chl4 l9test2xt _ 
3 








上 述 操 作 执行 完 后 ， 可 以 建立 Reportdelim.txt 文件 ， 然 后 我 们 可 以 使 用 read.delim O 函数 读 
取 这 个 文件 的 数据 ， 这 个 函数 的 基本 使 用 格式 和 各 参数 意义 如 下 所 示 。 
read.delim ( file, header = TRUE, sep = “ \t “, quote = "V" , dec = “.” +) 
D file : 以 txt 为 扩展 名 的 文件 。 
O header : 文件 第 1 行 是 变量 名 称 ， 默 认 是 TRUE. 
O sep: 数据 分 隔 符 ， 对 于 delim 文件 而 言 默 认 是 “\t”。 
口 quote : 字符 两 边 是 用 双 引 号 。 
O dec : 指定 小 数 点 格式 ， 默认 是 “.”。 


读者 可 以 使 用 help (read.delim ) 获得 更 完整 的 使 用 说 明 。 





实例 ch14_24 : 使 用 read.delim () 函数 读 取 Reportdelim.txt 文件 的 数据 。 


> exceldelim <- file.path("-/Rbook/ch14/Reportdelim.txt") 


> xdelim <- read.csv(exceldelim, sep =“\t") 


> 


[执行 结果 ] 


> xdelim 


Name Year Product Price Quantity Revenue Location 


1 Diana 2015 Block Tea 10 600 6000 New York 

2 Diana 2015 Green Tea 7 660 4620 New York 

3 Diana 2016 Black Tea 10 750 7500 New York 

4 Diana 2016 Green Tea 7 900 6300 New York 

5 Julia 2015 Black Tea 10 1200 12000 New York 

6 Julia 2016 Black Tea 1e 1260 12600 New York 

7 Steve 2015 Black Tea 10 1170 11700 Chicago 

8 Steve 2015 Green Tea 7 1260 8820 Chicago 

9 Steve 2016 Black Tea 1e 1350 13500 Chicago 

10 Steve 2016 Green Tea Y 1440 10080 Chicago 

> 

使 用 str O 函数 查看 这 个 文件 。 

> str(xdelim) 

'data.frame': 10 obs. of 7 variables: 

$ Name : Factor w/ 3 levels "Diana","Julia",..:: 1111223333 
$ Year : int 2015 2015 2016 2016 2015 2016 2015 2015 2016 2016 
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$ Product : Factor w/ 2 levels "Black Tea", "Green Tea: 1212111212 
$ Price : int 107 10 7 10 10 10 7 10 7 


$ Quantity: int 600 660 750 900 1200 1260 1170 1260 1350 1440 


$ Revenue : int 6000 4620 7500 6300 12000 12600 11700 8820 13500 10080 
$ Location: Factor w/ 2 levels "Chicago","New York": 2222221111 


> 


数据 的 输出 


14-6-1 writeClipboard () 函数 


writeClipboard () 函数 可 将 数据 输出 至 剪贴 板 。 它 与 readClipboard O 函数 一 样 目前 并 不 支持 


Mac OS. 


实例 ch4 25 : 将 数据 输出 至 剪贴 板 ， 假 设 x 对 象 数据 的 内 容 如 下 所 示 。 


>x 


Name Year Product Price Quantity Revenue Location 


1 Diana 2015 Black Tea 
2 Diana 2015 Green Tea 
3 Diana 2016 Black Tea 


10 
7 
10 


600 
660 
750 


6000 New York 
4620 New York 
7500 New York 
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4 Diana 2016 Green Tea 7 900 6300 New York 
5 Julia 2015 Black Tea 10 1200 12000 New York 
6 Julia 2016 Black Tea 10 1260 12600 New York 
7 Steve 2015 Black Tea 10 1170 11700 chicago 
8 Steve 2015 Green Tea 7 1260 8820 chicago 
9 steve 2016 Black Tea 10 1350 13500 chicago 
10 Steve 2016 Green Tea 7 1440 10080 chicago 
> 


下 列 代码 是 将 数据 输出 至 剪贴 板 。 


> writeclipboard(names (x)) 
- 


在 屏幕 上 看 不 到 任何 结果 ， 但 如 果 进 入 Excel 窗口 ， 再 单 击 “ 粘 贴 ”按钮 ， 即 可 看 到 上 述 命 
令 的 执行 结果 。 下 图 是 将 活动 单元 格 移 至 Al1 ， 再 单 击 “ 粘 贴 ” 按 钮 的 执行 结果 。 


A B C 








c0 Ow NHÀ 
Q 
El 
号 





14-6-2 write.table () 函数 
write.table () 函数 的 基本 使 用 格式 和 各 参数 意义 如 下 所 示 。 


write.table ( x, file = “” , quote = TRUE, sep = “” ,eol= "wn" ,na= "NA" , 
dec = "." , row.names = TRUE, col.names = TRUE ) 
O x : 和 矩阵 或 数据 框 对 象 。 
O file : 外 部 文件 名 ， 如 果 是 “” 则 表示 输出 至 屏幕 ， 如 果 是 clipboard 则 代表 输出 至 剪贴 血 。 
Q sep: 表示 输出 时 字符 串 两 边 须 加 “号 ”。 
O eol : 代表 end of line 的 符号 ，Mac 系统 可 用 “\r”，Unix 系统 可 用 “\n”，Windows 系统 可 用 “\ 
mn" 
口 row.names : 输出 时 是 否 加 上 行 名 ,默认 是 TRUE。 
口 col.names : 输出 时 是 否 加 上 列 名 ， 默 认 是 TRUE。 
实例 ch14_26 : 使 用 write-table () 函数 将 整个 数据 输出 至 剪贴 板 ， 此 例 笔 者 继续 使 用 x 对 象 。 


> write.table(x, file = "clipboard", sep = "At", row.names = FALSE) 
E 3 


在 屏幕 上 看 不 到 任何 结果 ， 但 如 果 进入 Excel 窗口 ， 再 单 击 “ 粘 贴 ” 按 钮 ， 即 可 看 到 上 述 命 
令 的 执行 结果 。 下 图 是 将 活动 单元 格 移 至 A1， 再 单 击 “ 粘 贴 ”按钮 的 执行 结果 。 
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A B C D E F G H 
1 Name Year Product Price Quantity Revenue Location 
2 Diana 2015 Black Tea 10 600 6000 New York 
3 |Diana 2015 Green Tea 7 660 4620 New York 
4 Diana 2016 Black Tea 10 750 7500 New York 
5 |Diana 2016 Green Tea 7 900 6300 New York 
6 Julia 2015 Black Tea 10 1200 . 12000 New York 
7 Julia 2016 Black Tea 10 1260 12600 New York 
8 Steve 2015 Black Tea 10 1170 11700 Chicago 
9 Steve 2015 Green Tea 7 1260 8820 Chicago 
10 Steve 2016 Black Tea 10 1350 13500 Chicago 
11 Steve 2016 Green Tea 7 140 10060 Chicago 











处 理 其 他 数据 


如 果 读 者 想 要 输入 或 输出 其 他 软件 数据 ， 例 如 ，SAS 或 SPSS… 等 ， 首 先 须 加 载 foreign 扩展 包 ， 
可 用 以 下 命令 。 
> library(foreign) 


接 下 来 我 们 介绍 有 关于 输出 数据 的 函数 ，write.foreign O 可 以 输出 R 数据 框 到 其 他 统计 软件 
fü, W, SAS, STATA 或 SPSS， 等 等 ， 产生 该 相关 统计 软件 的 套件 的 通用 格式 化 数据 文本 文件 
( free-format text )， 并 附带 写 出 一 个 对 应 的 程序 文件 ， 以 顺利 地 读 取 数据 完成 该 数据 集 的 建立 。 

















函数 语法 
write.foreign ( df, datafile, codefile, package = c ( “SPSS” , “Stata” , “SAS” ) ，…) 
使 用 参数 
af | R 数据 框 名 称 
datafile 可 供 读 入 的 数据 文件 
codefle | R 制作 完成 的 程序 文件 








实例 ch14_27 : 使 用 write.foreign () 函数 ， 输 出 SAS 数据 文件 。 


> # 产 生 对 应 的 SAs 数 据 文件 与 程序 文件 

> write.foreign(xcsv,"dfl4sas.txt","df14.sas",package-"sAsS") 
> # 显 示 产 生 的 SAS 数 据 文 本 文件 内 容 

> file.show("dfl4sas.txt") 

> ## 显 示 产 生 的 SAs 程 序 文件 内 容 

> file.show("df14.sas") 


我 们 将 前 面 所 建立 的 xCSV 数据 框 ( 实例 ch14_23 所 建 的 文件 ) 代入 write.foreign ()， 并 希望 
产生 一 个 SAS 格式 化 的 数据 文件 “df14sas.txt” 与 其 对 应 的 SAS 读 入 程序 文件 “dfl4.sas”， 因 此 对 
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于 package 参数 我 们 选用 “SAS”。 此 程序 执行 后 我 们 使 用 file.show() 函数 将 两 个 文件 的 内 容 显 示 
出 来 ， 如 以 下 的 两 张 图 所 示 。 当 我 们 在 SAS 程序 环境 下 设置 了 正确 的 libname 后 就 能 够 顺利 执行 
得 到 所 需要 的 SAS 数据 集 rdata 了 。 

df14sas.txt 


Ramm alsa 


1,2015,2,7,660,4620,2 
1,2016, 1, 10,750, 7500,2 
1,2016,2,7,900, 6300,2 
2,2015, 1, 10, 1200, 12000,2 
2,2016, 1,10, 1260, 12600,2 
3,2015, 1, 10,1170, 11700, 1 
3,2015,2,7,1260,8820,1 
3,2016, 1, 10, 1350, 13500, 1 
3,2016,2,7,1440, 10080, 1 


E 





df14.sas 


* write.foreign(xCSV, "dfl4sas.txt", "dfil4.sas", package = "SAS") ; 


PROC FORMAT; 
value Name 
1 - "Diana" 
2 = "Julia" 
3 = "Steve" 


value Product 


17 "Black Tea" ME 


2 = "Green Tea" 


value Location 
1 = "Chicago" 
2 = "New York" 


DATA rdata ; 
INFILE "dfi4sas.txt" 
DSD 
LRECL= 28 ; 
INPUT 
Name 
Year 
Product 
Price 
Quantity 
Revenue 
Location 


FORMAT Name Name. ; 

FORMAT Product Product. ; 
FORMAT Location Location. ; 
RUN; 








实例 ch14_28 : 使 用 write.foreign () 函数 ， 输 出 SPSS 数据 文件 。 
> 单产 生 对 应 的 SPSs 数 据 文件 与 程序 文件 


> write.foreign(xCsv,"dfl4sPss.sav","df14.sps",package-"sPss") 
> # 显 示 产 生 的 SPss 数 据 文本 文件 内 容 
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> file.show("dfl14sPss.sav") 

> ## 显 示 产 生 的 SPSs 程 序 文件 内 容 

> file.show("df14.sps") 

所 产生 的 SPSS 格式 化 数据 文件 “df14SPSS.sav” 与 SAS 格式 化 数据 文件 “df14sas.txt” 的 内 容 
完全 相同 ， 因 此 我 们 就 不 打印 出 其 结果 了 ; 而 程序 文件 “df14.sps” 的 内 容 ， 如 下 图 所 示 。 


DATA LIST FILE= "dfl4SPSS.sav" free (",") 
/ Name Year Product Price Quantity Revenue Location 





VARIABLE LABELS 
Name "Name" 

Year "Year" 
Product "Product" 
Price "Price" 
Quantity "Quantity" 
Revenue "Revenue" 
Location "Location" 


VALUE LABELS 
/ 


Name 

1 "Diana" 

2 "Julia" 

3 "Steve" 

/ 

Product 

1 "Black Tea" 
2 "Green Tea" 
f 

Location 

1 "Chicago" 
2 "New York" 


EXECUTE. 








我 们 也 可 以 使 用 下 列 函 数 读 取 这 些 统计 相关 的 软件 包 数 据 。 

read.S () : S-PLUS ( 百度 )。 

read.spss () : SPSS。 

read.ssd () : SAS。 

read.xport () : SAS。 

read.mtp () : Minitab。 

我 们 先 以 SPSS 所 储存 的 数据 集 文件 为 例 ,来 说 明 如 何 使 用 read.spss O 函数 来 读 取 已 经 存在 
的 由 原 数据 文件 转换 得 到 的 R 数据 框 的 方式 。 


使 用 语法 
read.spss ( file, use.value.labels = TRUE, to.data.frame = FALSE, 


max.value.labels = Inf, trim.factor.names = FALSE, 
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trim. values = TRUE, reencode = NA, use.missings = to.data.frame ) 


file : 希望 读 取 的 已 存在 的 SPSS 数据 文件 。 

use.value.labels : 逻辑 值 ， 是 否 将 变量 的 值 标签 转换 成 因子 变量 。 

to.data.frame : 逻辑 值 ， 是 否 返 回 数据 框 结果 。 

max.value.labels : 当 use.value.labels = TRUE 时 ， 定 义 最 大 的 因子 可 区 分 的 独特 值 个 数 。 
trim.factor.names : 逻辑 值 ， 是 否 修剪 因子 变量 名 称 的 末端 空白 。 

口 trim, values : 当 use.value.labels = TRUE 时 ， 是 否 忽略 因子 变量 值 及 值 标签 的 末端 空白 。 

口 reencode : 逻辑 值 ， 字 符 串 应 依照 当前 的 地 区 设 定 重新 编码 。 

口 use.missings : 逻辑 值 ， 是 否 将 自行 定义 的 遗漏 值 设 定 为 NA。 

将 上 面 所 储存 的 SPSS 数据 文件 “df14SPSS.sav”"， 以 PASW 程序 呈现 其 内 容 ， 如 下 图 所 示 。 


af14SPSS sav [ 神 科 闹 1] - PASW Statistics Dain Editor 


局) 


0. 0-0 0 © 














R: 7 个 说 数 (共有 了 7 个 ) 














实例 ch14_29 : 使 用 read.spss O 函数 读 取 前 一 实例 所 建 的 SPSS 数据 文件 “df14SPSS.sav”。 
# 读 取 SPSS 数 据 集 文件 “dfl14SPSS.sav"， 转 成 数据 框 


> my.frame <- read.spss("df14SPSS.sav", 
+ use.value.labels * TRUE, to.data.frame = T) 
Warning message: 
In read.spss("df14SPSS.sav", use.value.labels = TRUE, to.data. frame = T) : 
dfl4SPSS.sav: Unrecognized record type 7, subtype 18 encountered in system file 
> my.frame 
Name Year Product Price Quantity Revenue Location 


1 Diana 2015 Black Tea 10 600 6000 Nev York 
2 Diana 2015 Green Tea 7 660 4620 Nev York 
3 Diana 2016 Black Tea 10 750 7500 New York 
4 Diana 2016 Green Tea 了 900 6300 New York 
5 Julia 2015 Black Tea 10 1200 12000 New York 
6 Julia 2016 Black Tea 10 1260 12600 New York 
7 Steve 2015 Black Tea 10 1170 11700 Chicago 
8 Steve 2015 Green Tea T 1260 8820 Chicago 
9 Steve 2016 Black Tea 10 1350 13500 Chicago 
10 Steve 2016 Green Tea * 1440 10080 Chicago 


> class(my.frame) 
[1] "data.frame" 


如 以 上 程序 所 示 ， 将 “dfl4SPSS.sav” 置 入 file 参数 内 ， 仍 然 使 用 以 已 定义 的 值 标 签 ， 并 将 结 
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果 转 换 为 数据 框 ， 就 能 够 顺利 将 SPSS 数据 集 转化 为 R 的 数据 框 my.frame。 如 果 未 使 用 “to.data. 
frame=T” 的 参数 设 定 ， 或 者 未 加 入 此 和 参数， 那么 得 到 的 结果 会 是 串 行 (List ) 而 非 数据 框 。 

我 们 接 下 来 再 以 SAS 所 储存 的 永久 数据 集 文件 为 例 , 来 说 明 如 何 使 用 read.ssd O 函数 来 读 取 
已 经 存在 的 由 原 数据 文件 转换 得 到 R 数据 框 的 方式 。 


函数 语法 


read.ssd ( libname, sectionnames, 
tmpXport-tempfile () , tmpProgLoc-tempfile () , sascmd= "sas" ) 
口 libname : 永久 数据 集 所 在 的 目录 。 


口 sectionnames : SAS 永久 数据 集 的 名 ， 不 需 扩 展 名 ( ssd0x 或 sas7bdat 扩展 名 )。 

口 tmpXport : 通常 省 略 此 暂 存 转 置 格式 文件 。 

O tmpProgLoc : 通常 省 略 此 暂 存 转换 用 的 程序 文件 。 

口 sasemd : SAS 执行 程序 文件 的 目录 与 执行 文件 。 

我 们 使 用 以 下 的 实例 来 说 明 read.ssd () 函数 的 使 用 方式 与 返回 结果 。 笔 者 的 SAS 程序 是 安装 

在 “C:/Program Files/SASHome/SASFoundation/9.4” 路 径 下 的 ， 因 此 可 以 先 以 sashome 定义 此 参照 
路 径 。 另 外 笔者 的 永久 数据 集 名 称 为 “df14sas. sas7bdat"， 是 存放 在 sasuser 这 个 数据 库 内 的 ， 其 
对 应 的 文件 夹 为 “X:/Personal/My SAS Files/9.4”。 请 参考 以 下 两 图 。 


m VIEWTABLE. Sasuser.Df14sas 
gem [Yeu] oii Pree Quentty Reeme| Loonien | 
2015 Black Tea 10 600 6000 New York 
Des 2015 Green Tea 7 660 4620 New York 
Diana 2016 Black Tea 10 750 7500 New York. 
Diana 2016 Green Tea 了 900 6300 New York 
Jolia 2015 Black Tea 10 1200 12000 New York 
Jolia 2016 Black Tea 10 1260 12600 New York 
Steve 2015 Black Tea 10 1170 11700 Chicago 
Steve 2015 Green Tea 7 1260 8820 Chicago 
Steve 2016 Black Tea 10 1350 13500 Chicago 
Steve — 2016 Green Tea 7 1440 10080 Chicago 
























实例 cht4 30 : 使 用 read.ssd () 函数 读 取 SAS 数据 文件 。 


> # 定 义 545 执 行程 序 的 参照 路 径 


> sashome <- "C:/Program Files/SASHome/SASFoundation/9.4" 


> # 使 用 read, ssal ASK ARERR RA REF tp 
> sasxp <- read.ssd|"X:/Personal/My SAS Files/9.4", "dfi4sas", 
sascmd = file.path(sashome, "sas.exe")] 


> class(sasxp) 
[1] "data.frame" 
> str(sasxp) 


'data.frame': 10 obs. of 7 variables: 

$ NAME : Factor w/ 3 levels "Diana","Julia",..: 111122 33 3 3 

$ YEAR : Factor w/ 2 levels "2015","2016": 1122121122 

$ PRODUCT : Factor w/ 2 levels "Black Tea","Green Tea": 1212 111212 
$ PRICE  : num 10 7 10 7 10 10 10 7 10 7 

$ QUANTITY: num 600 660 750 900 1200 1260 1170 1260 1350 1440 

$ REVENUE : num 6000 4620 7500 6300 12000 ... 

$ LOCATION: Factor w/ 2 levels "Chicago","New York: 2222221111 
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以 上 程序 分 别 将 参照 数据 库 路 径 与 永久 数据 集 文件 放 入 为 前 两 个 参数 内 ， 并 将 SAS 执行 文件 
与 路 径 置 人 sasemd 参数 内 ， 就 能 够 顺利 将 返回 结果 转换 为 R 数据 框 sasxp。 
此 外 ， 如 果 想 要 连接 其 他 数据 库 软 件 ， 可 以 下 载 一 些 R 的 扩展 包 ， 主 要 包括 以 下 几 种 。 
O MySQL : RMySQL 扩展 包 ， 下 载 网 址 如 下 所 示 。 


http:/cran.r-project.org/packagezRMySQL 








Q hpa cran.r-projectorg web /paceages /RMYSQL Index html 





RMySQL: Database Interface and 'MySQL' Driver for R 


Implements 'DBT Interface to MySQL! and MariaDB Databases, 


Version: 0104 

Depends: R @ 280), DBI 03.1) 

Imports: methods 

Suggests: testhar 

Published: 2015-07-28 

Author: Jeroen Ooms [aut, cre], David James [aut], Saikat DebRoy [aut], Hadley Wickham [aut], Jeffrey Homer faut], RStudio [cph] 
Maintainer: Jeroen Ooms <jeroen ooms at stat ucla edu> 

BugReports:  htips:/github coavrstats -dbyrmysqUissues 

License: GPL2 

URL: htrs:/github.com/rstrs-db/mysa], hitps/lovenloads.mariadb crp/connector.c/ 


NeedsCompilation: yes 
SystemRequirements: libmariadb-client-lgpl-dev or libmysqjclient-dev (deb), mariadb-devel (rpm), mariadb or mysql-connector.c (brew). 
Materials: 


Windows binaries: rdevel: MySQL. 0.104 zip, release: RMYSQL 0.10.4 zip, -okret RMYSQL 0.104 zip 
OS X Snow Leopard binaries: r-release: RMySQL 0.10.4 pz, role RMySQL 0.03.7. 

OS X Mavericks binaries: T-release: RMySOL. 0.10.4192. 

Old sources: RMySQL archive 











O Oracle : Oracle 扩展 包 ， 下 载 网 址 如 下 所 示 。 
http://cran.r—project.org/package=ROracle 





eoe CRAN - Package ROracie 





Q rps cran.r-projectorg/wc5/oscksoes/ROracie index heri © 





ROracle: OCI Based Oracle Database Interface for R 
Oracle database interface (DBI) driver for R. This is a DBI-compliant Oracle driver based on the OCI. 


Version: 124 

Depends: methods, DB] ( 02-5) 

Imports: utils 

Published: 2015-07-31 

Author: Denis Mukhin, David A. James and Jake Luciani 
Maintainer: Rajendra S. Pingte <rajendra.pingte at oracle.comp- 
License: LGPL:21 LGPL2.1 I LGPL-3 [expanded from: LGPL] 
URL: htip//vrws.orocle com. 

NeedsCompilation: yes 

SystemRequirements: Oracle Instant Client or Oracle Datsbose Client 
Materials: NEWS INSTALL 

CRAN checks:  ROracle results 

Downlosäs: 

Reference manual: ROracle.pdf 

Package source: ROrclk 12-Ltargz. 

Windows binaries: rdevel: not available, racicesc: not available, r-oldrel: not available 


OS X Snow Leopard binaries: rrcjcasc: not available, r-okirel: not available 
OS X Mavericks binaries: r-release: not available 
Old sources: ROmcle archive 





Reverse dependencies: 
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口 PostgreSQL : PostgreSQL 扩展 包 ， 下 载 网 址 如 下 所 示 。 
http://cran.r—project.org/package=RPostgreSQL 





ese CRAN - Package RPostgreSQi 





i Mips cran.r-prejectorg wet psciages/RostoresQ. nde 





RPostgreSQL: R interface to the PostgreSQL database system 


systems. In order to build and install this package from source, PostgreSQL itself must be present your system to provide 
source will be used. A wiki and issue tracking system for the package are available at Google Code at btps:/code.google. 


Version: 04 

Depends: R (œ 29.0), methods, DBI œ 0.1-4) 

Published: 2013-03-27 

Author: Joe Conway, Dirk Eddelbuetel, Tomoaki Nishiyama, Sameer Kumar Prayaga (during 2008), Neil Tiffin 
Maintainer: Tomoaki Nishiyama «tomoakin at staff kanazawa-u ac jp 

License: GPL-2 file LICENSE 

Copyright: Authors listed above, PostgreSQL Global Development Group, and The Regents of the University of California 


RPostpeSQL. 041ar.gz 

Windows binaries: 1-devel: RPostgreSQL 0.4 zip, release: PostgreSQL. 0.4.zip,roldrel: RPostgreSQL 04 zip 
OS X Snow Leopard binaries: release: RPostyreSQL. 0.4 tgz, roldre: RPostgreSQL. 04.tgz. 

OS X Mavericks binaries: — r-release: RPostoreSQL O41gz 

Old sources: PostgreSQL archive. 





Database interface and PostgreSQL driver for R This package provides a Database Interface (DBT) compliant driver for R to access PostgreSQL database 


functionality via its libraries 


PostgreSQL. 
and header files. These files arc provided as postgresql-deve! package under some Linux distributions. On Microsoft Windows system the attached libpq library 
zonvp/rpostgresqU . 








O SQLite : SQLite 扩展 包 ， 下 载 网 址 如 下 所 示 。 
http://cran.r—project.org/package=RSQLite 








Qi mapel cran.r-projecorg/veb/oactages/SQUIe/nde htm 





RSQLite: SQLite Interface for R 


Reference manual: RSQLite pdf 
Package source: RSQLie LODargz 
Windows binaries: r-devet RSQLite 1.00 zip, r-release: RSQLite_10.0zip, r-okirel: RSQLiie_1.0.0zip 


OS X Snow Leopard binaries: release: RSQLile 100.22, roldrel: RSQLie 1.00:g2 





This package cmbeds the SQLite database engine in R and provides an interface compliant with thc DBI package. The source for the SQLite cnginc (version 


3.8.6) is included. 

Version: 100 

Depends: R (œ 2.10.0), DBI (» 0.3.1), methods 

Suggests: Testhar 

Published: 2014-10-25 

Author: Hadley Wickham [aut, cre], David A. James [aur], Seth Falcon [aut], SQLite Authors [ctb] (for the included SQLite sources), Liam Healy 
[eb] (or the inchde SQL» extensions), RSmdio [oh] 

Maintainer Hadley Wickham «hadley at studio coav- 

BugRepors: — htpsyigihub comisiuts-db/RSQLiteissues. 

License: LGPL-21LGPL 2.1 | LGPL-3 [expanded from: LGPL (œ 2)] 

URL: https github comrstats-dbRSQLite 

NeedsCompilation: yes 

Materials: README 
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本 章 习题 


一 、 判 断 题 
( ) 1， filepath () 函数 可 以 更 改 目前 的 工作 目录 。 
( ”) 2， 有 两 个 命令 分 别 如 下 所 示 。 
> dir(path = "d:/") 
或 
> dir("d:/") 
上 述 两 个 命令 的 执行 结果 相同 。 
(23. cat O 函数 主要 是 做 数据 输出 ， 特 别 是 输出 数据 框 时 非常 好 用 。 
( ”) 4. 有 一 数据 文件 ， 如 下 所 示 。 
(f; ch14 14.R 





119.0, 213, 338, 888, 197 


[$ ch14_18test1 
[5 ch14_18test2 
[5 ch14_18test3 











可 用 下 列 命令 读 取 上 述 5 个 数据 。 

x4 <- scan("-/Rbook/chi4/ch14 18test4.txt", sep = ",") 

上 述 命令 可 以 忽略 文件 路 径 ， 相 当 于 将 文件 路 径 视 为 正确 的 。 
( ”) 5， 有 如 下 命令 。 


write(letters, file = "") 


下 列 是 其 执行 结果 输出 的 前 5 行 。 


"anco 


( 26. 一般 情况 下 , 若 想 将 Excel 文件 转 成 CSV 文件 , 须 借 助 CSVHelp 文件 , 重 载 再 存 人 即 可 。 


二 、 单 选 题 
(C 2L. 下列 哪 一 个 函数 可 以 读 取 剪 贴 板 数据 ? 
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A. read.delim () B. scan () 
C. readClipboard () D. readline () 

) 2.， 以 下 哪个 函数 可 以 构成 电子 表格 的 特殊 字符 ? 
A.X B. \n C. \y D. 逗号 

) 3， 以 下 哪 一 个 函数 可 以 读 取 Excel 文件 数据 ? 
A. scan () B. readClipboard () 
C. read () D. read WorksheetFromFile () 

) 4， 所 谓 的 CSV 数据 是 指 同一 行 (Row) 的 数据 彼此 用 以 下 哪个 符号 分 隔 ? 
A.X B. C. \y D. 逗号 

) 5， 文 件 的 扩展 名 是 txt 时 ， 它 的 各 字段 数据 以 以 下 哪个 符号 做 分 隔 ? 
A. \t B. \n C. TAB D. 逗号 

) 6， 使 用 write.table () 函数 时 ， 如 果 file 等 于 什么 ， 表 示 输 出 至 屏幕 ? 
An B. console C. eol D. screenout 


) 7， 下 列 输出 函数 ， 会 将 数据 输出 至 哪里 ? 


> write.table(x, file = "clipboard", sep = "At", row.names = FALSE) 
> 


A. 屏幕 B. Clipboard 文件 
C. 剪贴 板 D. 程序 代码 有 误 
) 8. (EH write.foreign O 函数 时 ， 若 想 将 数据 输出 至 SAS 文件 ， 下 列 哪 一 个 参数 应 设 定 为 
"SAS", 
A. df B. datafile C. codefile D. package 
多 选 题 
) 1， 下 列 哪些 函数 可 以 读 取 剪 贴 板 数据 ? ( 选择 两 项 ) 
A. scan () B. read.table () 
C. readClipboard () D. read.delim () 


E. read.esv () 
) 2， 下 列 哪些 函数 可 以 读 取 SAS 数据 ? ( 选择 两 项 ) 


A.read.S B. read.spss 
C. read.ssd D. read.xport 
E. read.mtp 


实际 操作 题 ( 如 果 题 目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 
请 设计 程序 ， 此 程序 会 要 求 输入 姓名 ， 然 后 请 返回 “Welcome” 和 所 输入 的 姓名 。 


273 


R 语言 一 一 迈 向 大 数据 之 路 


2. 
3. 
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重新 输入 上 一 个 程序 ， 但 将 结果 输出 至 exer14_2.txt。 

请 参考 实例 ch14_18.R， 但 将 数据 改 成 10 个 ， 读 取 后 执行 下 列 操作 。 
(1) 求 总 计 。 

(2) 求 平均 。 

(3 ) 求 最 大 值 。 

(A) 求 最 小 值 。 

参考 前 一 实例 ， 将 执行 结果 写 人 exer14_3.txt。 

请 利用 Excel 建立 本 章 的 14-5-1 节 的 电子 表格 ， 然 后 利用 R 语言 计算 下 列 结果 。 
(1) 各 茶 产品 各 年 度 的 销售 总 量 。 

(2) 各 茶 产 品 各 年 度 的 销售 总 营业 额 。 

(3 ) 每 一 位 业务 员 在 各 年 度 的 总 营业 额 。 


15-1 
15-2 
15-8 
15-4 
15-5 
15-6 
15-7 
15-8 
15-9 








复习 数据 类 型 

随机 抽样 

再 谈 向 量 数据 的 抽取 并 以 islands 为 实例 
数据 框 数据 的 抽取 一 一 重复 值 的 处 理 
数据 框 数据 的 抽取 一 一 对 NA 值 的 处 理 
数据 框 的 字段 运算 

数据 的 分 割 

数据 的 合并 

数据 的 排序 


15-10 ”系统 内 建 数据 集 mtcars 


15-11 


aggregate () 函数 


15-12 建立 与 认识 数据 表格 
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学 完 前 14 章 后 ， 相 信 各 位 对 于 R 语言 已 有 了 一 定 的 认识 ,本章 笔者 计划 将 前 面 所 介绍 的 数 
据 配合 一 些 尚未 介绍 过 的 函数 ， 作 一 个 应 用 性 的 说 明 。 

在 本 章 的 开始 ， 笔 者 先 为 各 位 复习 R 语言 的 数据 类 型 ， 接 着 介绍 随机 抽样 ， 然 后 进入 本 章 主 
题 ， 搬 取 有 用 的 数据 。 


复习 数据 类 型 


合用 R 语言 作 数据 分 析 时 ， 首 先 要 思考 应 使 用 哪 一 种 数据 类 型 。 下 列 是 R 语言 的 所 有 数据 类 

1. 向 量 ( Vector ) 

向 量 是 指 只 有 一 个 维度 ， 同 时 所 有 数据 类 型 均 相同 的 数据 ， 例 如 ， 全 部 是 字符 串 或 数值 。 此 
外 我 们 也 可 以 将 这 种 类 型 的 数据 想 成 是 Excel 电子 表格 的 一 行 数据 或 一 列 数据 。 

2. 因子 ( Factor ) 

因子 与 字符 串 向 量 类 似 ， 所 有 字符 串 向 量 均 可 被 处 理 成 因子 , 但 因子 多 了 levels 和 labels 的 概念 。 

3. 矩阵 ( Matrix ) 或 更 高 维度 的 数组 ( Array ) 

和 矩阵 是 二 维 的 数据 ， 和 向 量 一 样 ， 所 有 数据 类 型 需要 相同 ， 例 如 ， 全 部 是 字符 串 或 数值 。 

4. 数据 框 ( Data Frame ) 

如 果 数 据 中 可 能 有 字符 串 ， 也 可 能 有 数值 ,那么 矩阵 就 不 适合 了 ， 此 时 可 以 先 考虑 使 用 数据 
框 。 数 据 框 的 一 个 特点 是 ， 所 有 数据 元 素 均 有 相同 的 长 度 ， 相 当 于 每 一 个 元 素 的 数量 均 相 同 。 此 
外 我 们 也 可 以 将 这 种 类 型 的 数据 想 成 是 Excel 电子 表格 的 一 个 窗 体 (Sheet )。 

5. 串 行 ( List ) 

串 行 主要 是 指 逻 辑 上 可 以 放 在 一 起 的 数据 ， 其 实 上 面 所 介绍 的 所 有 对 象 均 可 以 放 在 串 行内 ， 
甚至 串 行内 也 可 以 包含 其 他 串 行 。 


随机 抽样 


不 论 是 数学 家 或 统计 学 家 ， 从 一 堆 数据 中 抽取 样本 ， 作 更 进一步 的 分 析 与 预测 都 是 一 件 很 重 
要 的 事 。 在 R 语 言 中 ， 可 以 使 用 sample O 函数 ， 轻 易 地 完成 这 个 工作 ， 这 个 函数 的 使 用 格式 和 
各 参数 的 意义 如 下 所 示 。 
sample ( x, size, replace = FALSE, prob = NULL ) 
Q x: 这 是 个 向 量 ， 代 表 随 机 数 样本 的 范围 。 
O size : 这 是 正 整 数 ， 代 表 抽取 随机 样本 的 数量 。 
口 replace : 默认 是 FALSE， 如 果 是 TRUE， 则 代表 抽 完 一 个 样本 后 这 个 样本 需 放 回去 ， 供 下 次 抽取 。 
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O prob : 默认 是 NULL， 如 果 想 将 某 些 样本 被 抽取 的 概率 增 大 ， 则 可 在 这 个 参数 中 放置 数值 向 
量 ， 代 表 样 本 被 抽 中 的 比重 。 


15-2-1 将 随机 抽样 应 用 于 扑 殉 牌 


笔者 在 第 9 章 的 实例 ch9_19 中 曾经 建立 一 个 扑克 牌 的 向 量 deeck， 这 个 向 量 包含 扑 克 牌 的 52 
张 牌 的 数据 ， 如 下 所 示 。 


"Heart 8" 
"Heart Q" 
"Diamonds 3" 
"Diamonds 7" 
"Diamonds J" 
[41] "Clubs 2" 
[45] "Clubs 6" 
[49] "Clubs 10" 


> 


"Spades 2" 
"Spades 6" 
"Spades 10" 
"Heart A" 
"Heart 5" 
"Heart 9" 
"Heart K" 
"Diamonds 4" 
"Diamonds 8" 
"Diamonds Q" 
"Clubs 3" 
"Clubs 7" 
"Clubs J" 


实例 ch15 1 : 随机 产生 52 张 牌 。 


> sample(deck, 52) 
[1] "Clubs K" 
[5] "Spades 6" 
[9] "Diamonds J" 

[13] "Diamonds A" 

[17] "Clubs 6" 

[21] "Diamonds 9" 

[25] "Spades 7" 

[29] "Heart 3" 

[33] "Heart 8" 

[37] "Clubs 2" 

[41] "Heart 9" 

[45] "Clubs A" 

[49] "Diamonds 7" 

> 


“Heart 2" 
"Clubs J" 
"Spades 4" 
"Heart J" 
"Clubs 7" 
"Spades 5" 
"Heart Q" 
"Heart K" 
"Clubs 8" 
"Heart A" 
"Spades Q" 
"Clubs 10" 
"Heart 5" 


"Spades 3" "Spades 4" 
"Spades 7" "Spades 8' 
"Spades J" "Spades Q 
"Heart 2" "Heart 3" 
"Heart 6" "Heart 7" 
"Heart 10" "Heart J" 
"Diamonds A" "Diamonds 2" 
"Diamonds 5" "Diamonds 6 
"Diamonds 9" "Diamonds 10 
"Diamonds K" "Clubs A" 
"Clubs 4" "Clubs 5" 
"Clubs 8" "Clubs 9" 
"Clubs Q" "Clubs K" 
"Diamonds 5" "Clubs 5" 
"Clubs 9" "Diamonds 2" 
"Diamonds 10" "Diamonds 3" 
"Heart 4" "Clubs 3" 
"Diamonds 4" “Spades 9" 
"Spades 10" “Spades 8" 
"Heart 7" "Diamonds Q" 
"Spades K" "Spades A" 
"Clubs 4" "Heart 10" 
"Spades J" "Diamonds K" 
"Diamonds 8” “Heart 6" 
"Spades 2" "Spades 3" 
"Clubs Q" "Diamonds 6" 


这 个 实例 每 次 执行 均 会 有 不 同 的 输出 结果 。 


15-2-2 ”种子 值 


实例 ch15_1 在 每 次 执行 时 都 会 产生 不 同 的 出 牌 顺序 。 在 真实 的 实验 过 程 中 ， 有 时 我 们 会 想 要 记 
录 实 验 随机 数据 的 处 理 过 程 ， 希 望 不 同 的 测试 者 可 以 获得 相同 的 随机 数 ， 以 便 比较 与 分 析 ， 此 时 可 
以 使 用 种 子 值 。setseed O 函数 可 用 于 设 定 种 子 值 。setseed O 函数 的 参数 可 以 是 一 个 数字 ， 当 设置 
种 子 值 后 ， 在 相同 种 子 值 后 面 的 sample O 所 产生 的 随机 数 序列 将 相同 。 
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: 重新 执行 实例 ch15_1， 但 此 次 增加 设 定 种 子 值 ， 并 观察 执行 结果 。 








2 # 实例 ch15_2.R 
# 


ch15.2 <- function( ) 
gt 


3 
4 
5 
6 set.seed(1) 
7 
8 


sample(deck, 52) 
$ 
[执行 结果 ] 

> ch15_2C) 

[1] "Heart A" "Heart 6" "Diamonds 3" "Clubs 6" 
[5] "Spades 10" "Clubs 4" "Cubs 5" "Diamonds 4" 
[9] "Diamonds 2" "Spades 3" "Spades 9" "Spades 8" 
[13] "Clubs 7" "Heart 2" "Clubs 10" "Clubs Q" 
[17] "Heart K" "Diamonds 9" "Spades K" "Diamonds 10" 
[21] "Diamonds Q" "Spades 7" "Heart 7" "Spades 4" 
[25] "Clubs 2" "Spades J" "Spades A" "Clubs 9" 
[29] "Heart 8" “Clubs A" "Diamonds A" "Diamonds 8" 
[33] "Heart Q" "Clubs J" "Diamonds K" "Spades Q" 
[37] "Heart J" "Spades 2" "Heart 9" "Spades 6" 
[41] "Diamonds 6" "Heart 10" "Clubs K" "Spades 5" 
[45] "Clubs 3" “Heart 3" "Diamonds 7" "Clubs 8" 
[49] "Heart 4" "Diamonds J" "Diamonds 5" "Heart 5" 


对 上 述 程序 而 言 ， 每 次 执行 均 可 以 获得 相同 的 扑克 牌 出 牌 顺序 。 此 外 ， 在 上 述 程序 的 第 6 
行 ， 笔者 将 set.seed O 函数 的 参数 设 为 1， 在 此 若 放 置 不 同 的 参数 也 可 以 , 但 不 同 参数 会 有 各 自 
不 同 的 出 牌 顺序 。 
实例 ch15_3.R : 重新 执行 实例 ch15_2.R， 但 此 次 在 set.seed O 函数 内 放置 不 同 的 参数 ， 并 观察 
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执行 结果 。 
234 
2 # 实例 ch15_3.R 
3 # 
4 chl5_3 <- function( ) 
Sai 
6 set.seed(8) 
7 sample(deck, 52) 
8 ) 
[执行 结果 ] 
> ch15_3C ) 
[1] "Heart Q" "Spades J" "Clubs A" "Diamonds 6" 
[5] "Heart 3" "Diamonds 8" "Heart A" "Clubs 3" 
[9] "Clubs 8" "Diamonds 2" "Heart 7" " 4 
[13] "Heart 5" "Heart 9" "Spades 6" "Diamonds 9" 
[17] "Spades A" "Spades 10" "Diamonds J" "Clubs J" 
[21] "Spades 8" "Spades K" "Heart 6" "Spades 7" 
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[25] "Diamonds 4" "Diamonds A" "Spades 3" "Clubs 9" 
[29] "Diamonds 5" "Clubs 4" "Spades 5" “Clubs 7" 
[33] "Heart 10" "Clubs 2" "Clubs 10" "Diamonds Q" 
[37] "Clubs K" "Heart 2" "Heart 4" "Clubs 5" 
[41] "Clubs Q" "Clubs 6" "Diamonds K" "Diamonds 7" 
[45] "Heart K" "Spades 2" “Spades Q" "Diamonds 10" 
[49] "Heart 8" "Heart J" "Spades 9" "Diamonds 3" 


»- 


比较 ch15_3.R 与 ch15_2.R， 由 于 实例 ch15_3.R 的 set.seed O 的 参数 是 8， 因此 ch15 3.R 产 
生 了 与 ch15_2.R 不 同 的 种 子 值 ， 因 此 最 后 发 现 彼此 的 出 牌 顺序 是 不 同 的 ， 但 每 一 次 执行 ch15_3.R 
时 ， 皆 可 以 获得 相同 的 出 牌 顺序 。 


15-2-3 ”模拟 山子 

骨 子 是 由 1 到 6 组 成 的 ， 如 果 我 们 想 要 拂 12 次 ,同时 记录 结果 ,那么 可 以 使 用 下 列 方法 。 
实例 ch15_4 : JE 12 KEF, ERAR. 

> sample(1:6, 12, replace = TRUE) 


[1]136253166654 
> 


在 上 述 程序 中 ， 由 于 每 次 掷 仍 子 均 必须 重新 取样 ， 所 以 replace 参数 需 设 为 TRUE。 可 以 想 成 
将 抽取 的 样本 放 回 去 ， 然 后 重新 取样 。 当 然 设 定 种 子 值 的 方法 也 适合 应 用 于 掷 贷 子 取样 。 
实例 ch15_5.R : 将 设 定 种 子 值 的 方法 应 用 于 掷 仍 子 取样 。 


实例 ch15_5.R 


hi5.5 <- function( ) 


marte 


1 


set.seed(1) 
sample(1:6, 12, replace - TRUE) 


co x0ubuNKNw 


- 


[ 执行 结果 ] 


> source('~/Rbook/ch15/ch15_5.R') 
> ch15_5() 
[1] 234626644122 
> ch15_5() 
[1] 234626644122 
> 


实例 ch15_5.R 不 论 何 时 执行 ， 均 可 获得 相同 的 取样 结果 。 
15-2-4 ”比重 的 设置 
如 果 在 取样 时 ， 希 望 某 些 样本 有 较 高 的 概率 被 抽取 ， 可 更 改 样本 的 比重 (Weights )。 
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实例 ch15_6 : ERICH, FE 1 和 6 设 成 有 5 倍 于 平均 的 比重 被 随机 抽 中 。 


> sample(1:6, 12, replace = TRUE, c(5, 1, 1, 1, 1, 5)) 
[11113152132616 

> sample(1:6, 12, replace = TRUE, c(5, 1, 1, 1, 1, 5)) 
[1616146111651 

> sample(1:6, 12, replace = TRUE, c(5, 1, 1, 1, 1, 5)) 
[035631513115561 

> sample(1:6, 12, replace = TRUE, c(5, 1, 1, 1, 1, 5)) 
[1311416666111 

> 


以 上 是 笔者 连续 执行 数 次 所 观察 到 的 执行 结果 。 


再 谈 向 量 数据 的 抽取 并 以 islands 为 实例 


在 第 4 章 的 4-9-3 节 笔 者 已 经 介绍 了 一 些 从 系统 内 建 的 向 量 islands 中 抽取 数据 的 实例 ， 本 节 
将 针对 其 他 可 能 抽取 数据 的 方式 做 完整 解说 。 
实例 ch15_7 : 抽取 指定 索引 的 数据 ， 以 单一 索引 与 多 个 索引 为 例 


> islands[5] 





Axel Heiberg 
16 
» islands[c(1, 10, 20, 30, 40)] 
Africa Celebes Honshu New Britain Southampton 
11506 73 89 15 16 


> 


实例 ch15_8 : 抽取 某 些 范围 以 外 的 数据 ， 下 列 是 排除 索引 为 21 至 48 的 数据 。 


> islands[-(21:48)] # 排 除 21 至 48 的 数据 
Africa Antarctica Asia Australia Axel Heiberg Baffin 
11506 5500 16988 2968 16 184 
Banks Borneo Britain Celebes Celon Cuba 
23 280 84 73 25 43 
Devon Ellesmere Europe Greenland Hainan Hispaniola 
21 82 3745 840 13 30 
Hokkaido Honshu 
30 89 
> 
下 列 是 排除 索引 为 1 至 30 的 数据 。 
> islands[-(1:30)] # 排 除 1 至 36 的 数据 
New Guinea New Zealand (N) New Zealand (S) Newfoundland 
306 44 58 43 
North America Novaya Zemlya Prince of Wales Sakhalin 
9390 32 13 29 
South America Southampton Spitsbergen Sumatra 
6795 16 15 183 
Taiwan Tasmania Tierra del Fuego Timor 
14 26 19 13 
Vancouver Victoria 
12 82 
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实例 15_9 : 返回 所 有 数据 。 


> islands[ ] 
Africa 
11506 
Axel Heiberg 
16 
Britain 
84 
Devon 
21 
Hainan 
13 
Iceland 
40 
Luzon 
42 
Moluccas 
29 
New Zealand (S) 
58 
Prince of Wales 
13 
Spitsbergen 
15 
Tierra del Fuego 
19 

> 


实例 ch15_10 : 使 用 逻辑 判断 语句 列 出 某 范围 内 的 数据 ， 下 列 是 列 出 面积 大 于 100 平方 千 米 的 岛 





Antarctica 
5500 
Baffin 

184 
Celebes 

73 
Ellesmere 
82 
Hispaniola 
3e 

Ireland 

33 
Madagascar 
227 

New Britain 
15 
Newfoundland 
43 
Sakhalin 
29 

Sumatra 
183 

Timor 

13 
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# 空 白 表 示 列 出 所 有 资料 
Asia Australia 
16988 2968 
Banks Borneo 
23 280 
Celon Cuba 
25 43 
Europe Greenland 
3745 840 
Hokkaido Honshu 
30 89 
Java Kyushu 
49 14 
Melville Mindanao 
16 36 
New Guinea New Zealand (N) 
306 44 
North America Novaya Zemlya 
9390 32 
South America Southampton 
6795 16 
Taiwan Tasmania 
14 26 
Vancouver Victoria 
12 82 





屿 的 实例 。 
> islands[ islands > 100] 3PJHBIETAT 1003EZ FKSIS 
Africa Antarctica Asia Australia Baffin 
11506 5500 16988 2968 184 
Borneo Europe Greenland Madagascar New Guinea 
280 3745 840 227 306 
North America South America Sumatra 
9390 6795 183 
> 
下 列 是 列 出 面积 小 于 30 平方 千 米 的 岛屿 的 实例 。 
> islands[ islands < 30 ] ## 列 出 面积 小 于 30 平 方 干 米 的 岛屿 
Axel Heiberg Banks Celon Devon 
16 23 25 21 
Hainan Kyushu Melville Moluccas 
13 14 16 29 
New Britain Prince of Wales Sakhalin Southampton 
15 13 29 16 
Spitsbergen Taiwan Tasmania Tierra del Fuego 
15 14 26 19 
Timor Vancouver 
13 12 
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实例 ch15_11 : 列 出 名 称 相同 的 岛屿 ， 下 列 是 列 出 Taiwan 的 实例 。 


> islands["Taiwan"] 
Taiwan 

14 
> 


下 列 是 列 出 Taiwan, Africa 和 Australia 的 实例 。 


> islands[c("Africa", "Australia", "Taiwan")] 
Africa Australia Taiwan 
11506 2968 14 


数据 框 数据 的 抽取 一 一 对 重复 值 的 处 理 


iris 中 文 是 意 尾 花 ， 这 是 系统 内 建 的 数据 框 数 据 集 ， 内 含 150 个 记录 


> str(iris) 

'data.frame': 150 obs. of 5 variables: 

$ Sepal.Length: num 5.14.9 4.7 4.65 5.44.65 4.4 4.9 . 

$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3. i. 

$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1. 5. 

$ Petal.Width : num 90.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0. is 

$ Species : Factor w/ 3 levels "setosa","versicolor",. Dl i 1111111 
x em 

> 


数据 框 ( Data Frame ) 是 一 个 二 维 的 对 象 ， 所 以 在 抽取 数据 时 索引 (Index ) 须 包括 
和 列 ( Column )。 
实例 ch15_12 : 抽取 前 8 行 数 据 。 


> iris[1:8, ] 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 


1 5.1 3.5 1.4 0.2 setosa 
2 4.9 3.0 1.4 0.2 setosa 
3 4.7 3.2 1.3 0.2 setosa 
4 4.6 3.1 1.5 0.2 setosa 
5 5.0 3.6 1.4 0.2 setosa 
6 5.4 3.9 1.7 0.4 setosa 
了 4.6 3.4 1.4 0.3 setosa 
8 5.0 3.4 1.5 0.2 setosa 
- 


( Row) 


实例 ch15. 13 : 抽取 高 尾 花 数 据 集中 字段 是 花轿 的 长 度 (“PetalLength” ) 的 数据 ， 并 观察 执行 结果 。 


> x <- iris[, "Petal.Length"] 
> X 

[1] 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 1.5 1.6 1.4 1.1 1.2 1.5 1.3 
[18] 1.4 1.7 1.5 1.7 1.5 1.0 1.7 1.9 1.6 1.6 1.5 1.4 1.6 1.6 1.5 1.5 1.4 
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[35] 1.5 1.2 1.3 1.4 1.3 1.5 1.3 1.3 1.3 1.6 1.9 1.4 1.6 1.4 1.5 1.4 4.7 
[52] 4.5 4.9 4.0 4.6 4.5 4.7 3.3 4.6 3.9 3.5 4.2 4.0 4.7 3.6 4.4 4.5 4.1 
[69] 4.5 3.9 4.8 4.0 4.9 4.7 4.3 4.4 4.8 5.0 4.5 3.5 3.8 3.7 3.9 5.1 4.5 
[86] 4.5 4.7 4.4 4.1 4.0 4.4 4.6 4.0 3.3 4.2 4.2 4.2 4.3 3.0 4.1 6.0 5.1 
[103] 5.9 5.6 5.8 6.6 4.5 6.3 5.8 6.1 5.1 5.3 5.5 5.0 5.1 5.3 5.5 6.7 6.9 
[120] 5.0 5.7 4.9 6.7 4.9 5.7 6.0 4.8 4.9 5.6 5.8 6.1 6.4 5.6 5.1 5.6 6.1 
[137] 5.6 5.5 4.8 5.4 5.6 5.1 5.1 5.9 5.7 5.2 5.0 5.2 5.4 5.1 
> 


由 上 述 执行 结果 可 以 发 现 ，iris 原 是 数据 框 数据 型 态 ， 经 上 述 抽取 后 ， 由 于 取得 的 是 单列 的 
数据 ， 所 以 数据 型 态 被 R 简化 为 向 量 ， 如 果 想 避免 这 类 情况 发 生 ， 可 以 在 抽取 数据 时 增加 参数 
"drop = FALSE". 
实例 ch15 14 : 在 实例 ch15_13 中 增加 参数 “drop = FALSE”， 重 新 执行 ， 抽 取 药 尾 花 数 据 集中 字 
段 是 花 泊 的 长 度 (“Petal.Length”) 的 数据 ， 并 观察 执行 结果 。 


> x <- iris[, "Petal.Length", drop = FALSE] 
> X 
Petal.Length 

1 1.4 
2 1.4 
3 1.3 
4 1.5 
5 1.4 


笔者 只 列 出 了 部 分 输出 结果 ， 如 果 用 str O 函数 检查 ， 可 以 更 加 确定 即使 是 抽取 单列 数据 ， 
我 们 仍 获得 了 数据 框 的 执行 结果 ， 如 以 下 所 示 。 


> str(x) 

'data.frame': — 150 obs. of 1 variable: 

$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ... 
> 


不 过 ， 如 果 我 们 使 用 了 第 8 章 中 8-2-4 节 的 方式 抽取 数据 ， 所 获得 的 结果 也 会 是 数据 框 。 
实例 ch15_15 : 采用 与 上 一 实例 不 同 的 方法 抽取 单列 数据 ， 使 所 获得 的 结果 仍 是 数据 框 。 
» X <- iris["Petal.Length"] 


>x 
Petal.Length 


1.4 
笔者 只 列 出 了 部 分 输出 结果 ， 如 果 用 str O 函数 检查 ， 也 可 以 确定 即使 是 抽取 单列 数据 ， 我 
们 采用 这 种 方式 仍 获得 了 数据 框 的 结果 ， 如 下 所 示 。 


> str(x) 

'data.frame': 150 obs. of 1 variable: 

$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ... 
- 
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实例 ch15 16 : 抽取 Sepal.Length 和 Petal.Length 字段 的 所 有 行 的 数据 。 


> iris[, c("Sepal.Length", "Petal.Length")] 
Sepal.Length Petal.Length 


X 5.1 1.4 
2 4.9 1.4 
3 4.7 1.3 
4 4.6 1.5 
5 5.0 1.4 


实例 ch15 17 : 抽取 部 分 行 (第 3 8) 7 £1) 和 部 分 列 ( Sepal.Length 和 Petal.Length ) 的 数据 。 


> iris[3:7, c("Sepal.Length", "Petal.Length")] 
Sepal.Length Petal.Length 
4.7 


3 1.3 
4 4.6 1.5 
5 5.0 1.4 
6 5.4 1.7 
7 4.6 1.4 
> 


在 本 章 的 15-2 节 我 们 介绍 了 随机 抽样 的 概念 ， 我 们 可 以 将 随机 抽样 应 用 在 这 里 的 。 
实例 ch15_18 : 随机 抽取 8 行 意 尾 花 的 观察 数据 。 


> X <- sample(1:nrow(iris), 8) # 随 机 抽 8 个 索引 


>x 
[1] 126 12 54116 95 112 86 28 
> iris[x, ] # 列 出 这 8 个 行 数据 

Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
126 7.2 3.2 6.0 1.8 virginica 
i2 4.8 3.4 1.6 9.2 setosa 
54 5.5 2.3 4.0 1.3 versicolor 
116 6.4 3.2 5.3 2.3 virginica 
95 5.6 2.7 4.2 1.3 versicolor 
112 6.4 2.7 5.3 1.9 virginica 
86 6.0 3.4 4.5 1.6 versicolor 
28 5.2 3.5 1.5 9.2 setosa 


G nrow () 函数 可 返回 对 象 个 数 。 


15-4-1 重复 值 的 搜索 

使 用 duplicated () 函数 可 以 搜索 对 象 是 否 有 重复 值 ， 数 值 在 第 一 次 出 现时 会 返回 FALSE, 未 
来 重复 出 现时 则 返回 TRUE。 
实例 ch15_19 : 搜索 向 量 数据 ， 了 解 是 否 有 数值 重复 。 

> duplicated(c(1, 1, 2, 2, 3, 5, 8, 1)) 


[1] FALSE TRUE FALSE TRUE FALSE FALSE FALSE TRUE 


- 
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由 上 述 执行 结果 可 以 看 到 ， 数 值 若 出 现 第 2 次 就 会 返回 TRUE。 这 个 函数 如 果 是 应 用 于 数据 
框 则 必须 该 行内 所 有 数据 与 前 面 某 行 的 所 有 数据 重复 才 算 重复 。 
实例 ch15_20 : 搜索 iris 数据 框 数据 ， 了 解 是 否 有 数值 重复 。 


> duplicated(iris) 


[1] FALSE 
[12] FALSE 
[23] FALSE 
[34] FALSE 
[45] FALSE 
[56] FALSE 
[67] FALSE 
[78] FALSE 
[89] FALSE 
[100] FALSE 
[111] FALSE 
[122] FALSE 
[133] FALSE 
[144] FALSE 
> 


FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 


FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 


FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 


FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 


FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 


FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 


FALSE FALSE 
FALSE FALSE 
FALSE FALSE 
FALSE FALSE 
FALSE FALSE 
FALSE FALSE 
FALSE FALSE 
FALSE FALSE 
FALSE FALSE 
FALSE FALSE 
FALSE FALSE 
FALSE FALSE 
FALSE FALSE 


FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 
FALSE 


由 上 述 执行 结果 ， 可 以 发 现 第 143 行 数据 返回 了 TRUE， 所 以 这 行 数据 是 重复 出 现 的 。 上 述 
执行 结果 笔者 是 通过 观察 得 到 的 ， 更 好 的 方式 是 使 用 下 一 节 所 介绍 的 函数 。 


15-4-2 which O 函数 


which O 函数 可 以 传 回 重复 值 的 索引 。 
实例 ch15_21 : 传 回 实例 ch15_19 中 的 重复 值 的 索引 。 


> which(duplicated(c(1, 1, 2, 2, 3, 5, 8, 1))) 


[248 


> 


实例 ch15_22 : 3& In S; FEE iris 对 象 重复 值 的 索引 。 


> which(duplicated(iris)) 


[1] 143 
> 


在 实例 ch15_20 中 ,笔者 是 用 观察 执行 结果 的 方法 得 到 第 143 行 数据 是 重复 值 的 ， 但 在 实例 
ch15_22 中 ,我 们 已 改 成 ， 用 which O 函数 获得 第 143 行 数据 是 重复 值 。 


15-4-3 ”抽取 数据 时 去 除 重复 值 


有 两 个 方法 可 以 抽取 数据 时 去 除 重复 值 , 方法 1 是 ,使 用 负 值 索引 。 
实例 ch15_23.R : 使 用 负 值 当 索 引 去 除 iris 对 象 的 重复 值 。 


20s 
2 # 


实例 ch15_23.R 





285 


R 语言 一 一 迈 向 大 数据 之 路 


L4 
ch15_23 «- function( ) 
1 


3 
4 
5 
6 i <- which(duplicated(iris)) 
c x «- iris[-i, ] 

8 

9 


print(x) 
} 
[执行 结果 ] 

> iris 

Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
1 5.1 3.5 1.4 0.2 setosa 
2 4.9 3.0 1.4 0.2 setosa 
3 4.7 3.2 1.3 0.2 setosa 
如 果 往 下 滚动 屏幕 ， 则 可 以 看 到 下 列 输 出 结果 。 
140 6.9 3.1 5.4 2.1 virginica 
141 6.7 3.1 5.6 2.4 virginica 
142 6.9 3.1 5.1 2.3 virginica 
144 8 3.2 5.9 2.3 virginica 
145 6.7 3.3 5.7 2.5 virginica 
146 6.7 3.0 5.2 2.3 virginica 
147 6.3 2.5 5.0 1.9 virginica 
148 6.5 3.0 5.2 2.0 virginica 
149 6.2 3.4 5.4 2.3 virginica 
150 5.9 3.0 5.1 1.8 virginica 


由 以 上 执行 结果 可 以 看 到 第 143 行 数据 已 被 去 除 。 方 法 2 是 直接 使 用 逻辑 运算 语句 ， 可 参考 
下 列 实例 。 
实例 ch15_24 : 在 索引 中 加 入 逻辑 运算 符号 “!"， 去 除 iris 对 象 的 重复 值 。 


> iris[!duplicated(iris), ] 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 





1 5.1 3.5 1.4 9.2 setosa 
2 4.9 3.0 1.4 0.2 setosa 
3 4.7 3.2 1.3 9.2 setosa 
如 果 往 下 滚动 屏幕 ， 则 可 以 看 到 下 列 输出 结果 。 

140 6.9 8:1 5.4 2.1 virginica 
141 6.7 3.1 5.6 2.4 virginica 
142 6.9 3.1 5.1 2.3 virginica 
144 6.8 3.2 5.9 2.3 virginica 
145 6.7 3.3 5.7 2.5 virginica 
146 6.7 3.0 5.2 2.3 virginica 
147 6.3 2.5 5.0 1.9 virginica 
148 6.5 3.0 5.2 2.0 virginica 
149 6.2 3.4 5.4 2.3 virginica 
150 5.9 3.0 3.2 1.8 virginica 


> 


由 以 上 执行 结果 可 以 看 到 第 143 行 数据 已 被 去 除 。 
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数据 框 数据 的 抽取 一 一 对 NA 值 的 处 理 


在 真实 世界 里 ， 


有 时 候 无 法 收集 到 正确 信息 ， 此 时 可 能 用 NA 代表 ， 在 这 一 小 节 中 ， 笔 者 将 





讲解 处 理 这 类 数据 的 方式 。 


15-5-1 抽取 数据 时 去 除 含 NA 值 的 行 数据 
R 语言 系统 有 一 个 内 建 的 数据 集 airquality， 它 的 数据 如 下 所 示 。 


> airquality 


Ozone Solar.R Wind Temp Month Day 


1 41 190 7.4 67 5 1 
2 36 118 8.0 72 5 2 
3 12 149 12.6 74 s 3 
4 18 313 11.5 62 5 4 
5 NA NA 14.3 56 5 5 
6 28 NA 14.9 66 5 6 


如 果 往 下 滚动 屏幕 ， 则 可 以 看 到 下 列 输出 结果 


148 14 20 16.6 63 
149 30 193 6.9 70 
150 NA 145 13.2 77 
151 14 191 14.3 75 
152 18 131 8.0 76 
153 20 223 11.5 68 


25 
26 
27 
28 
29 
30 


(D x0 Uo UD 00 UD 


以 下 是 使 用 str () 函数 了 解 其 结构 。 


> str(airquality) 


'data.frame': 

$ Ozone : int 
$ Solar.R: int 
$ Wind  : num 
$ Temp  : int 
$ Month : int 
$ Day 2 dnt 


> 


153 obs. of 6 variables: 

41 36 12 18 NA 28 23 19 8 NA ... 

190 118 149 313 NA NA 299 99 19 194 ... 

7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 20.1 8.6 ... 
67 72 74 62 56 66 65 59 61 €9 ... 
5595555555... 
12345678919... 


由 上 述 执行 结果 可 以 知道 airquality 是 数据 框 对 象 ， 也 可 以 看 到 上 述 对 象 含 有 许多 NA fH. R 
语言 提供 了 complete.cases () 函数 ， 如 果 对 象 的 数据 行 是 完整 的 则 传 回 TRUE， 如 果 对 象 数据 含 


NA 值 则 传 回 FALSE 


实例 ch15_25 : 使 用 complete.cases () 函数 测试 airquality 对 象 。 


> complete.cases(airquality) 

[1] TRUE TRUE TRUE TRUE FALSE FALSE TRUE TRUE TRUE FALSE FALSE 
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE 
[23] TRUE TRUE FALSE FALSE FALSE TRUE TRUE TRUE TRUE FALSE FALSE 
[34] FALSE FALSE FALSE FALSE TRUE FALSE TRUE TRUE FALSE FALSE TRUE 
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[45] FALSE FALSE TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE 
[56] FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE FALSE TRUE 
[67] TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE FALSE TRUE TRUE 
[78] TRUE TRUE TRUE TRUE TRUE FALSE FALSE TRUE TRUE TRUE TRUE 
[89] TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE TRUE 
[100] TRUE TRUE FALSE FALSE TRUE TRUE TRUE FALSE TRUE TRUE TRUE 
[111] TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE FALSE TRUE TRUE 
[122] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE 
[133] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE 
[144] TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE 
> 


实例 ch15_26 : 抽取 airquality 对 象 的 数据 时 去 除 含 NA 值 的 行 数 据 。 
> X.NoNA <- airquality[complete.cases(airquality), J 


» X.NoNA 

Ozone Solar.R Wind Temp Month Day 
1 41 190 7.4 67 S. 1 
2 36 118 8.0 72 5 2 
3 12 149 12.6 74 5 3 


如 果 往 下 卷 动 ， 可 以 看 到 下 列 结果 。 


151 14 191 14.3 75 9 28 
152 18 131 8.0 76 9 29 
153 20 223 11.5 68 9 30 
> 


由 上 述 执行 结果 ， 可 以 看 到 x.NoNA 对 象 不 再 有 含 NA 的 行 数据 了 。 以 下 是 用 str O 函数 了 解 
新 对 象 的 结构 。 

> Str(x.NoNA) 

'data.frame': 111 obs. of 6 variables: 

$ Ozone : int 41 36 12 18 23 19 8 16 11 14 ... 

$ Solar.R: int 190 118 149 313 299 99 19 256 290 274 ... 

$ Wind  : num 7.4 8 12.6 11.5 8.6 13.8 20.1 9.7 9.2 10.9 ... 

$ Temp  : int 67 72 74 62 65 59 61 69 66 68 ... 

$Month : int 5555555555... 


$ Day : int 1234789 12 13 14 ... 
> 


可 以 看 到 原先 有 153 行 数据 ， 最 后 只 剩 111 行 数据 了 。 


15-5-2 na.omit O 函数 


使 用 na.omit () 函数 也 可 以 实现 15-5-1 节 所 叙述 的 功能 。 
实例 ch15_27 : 使 用 na.omit O 函数 重新 执行 实例 ch15_26 的 任务 ， 抽 取 airquality 对 象 的 数据 时 
ERE NA 值 的 行 数据 。 

> x2.NoNA <- na.omit(airquality) 


> str(x2.NoNA) 
'data.frame': — 111 obs. of 6 variables: 
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$ Ozone : int 41 36 12 18 23 19 8 16 11 14 ... 
$ Solar.R: int 190 118 149 313 299 99 19 256 290 274 ... 


$ Wind  : num 7.4 8 12.6 11.5 8.6 13.8 20.1 9.7 9.2 10.9 ... 
$ Temp int 67 72 74 62 65 59 61 69 66 68 ... 
$ Month int 5555555555... 





$ Day : int 1234789 12 13 14 ... 
- attr(*, "na.action")-Class 'omit' Named int [1:42] 5 6 10 11 25 26 27 32 33 34 ... 
. s. Gttr(*, "names")e chr [1:42] "5" "6" "10" "11" ... 


数据 框 的 字段 运算 


对 于 数据 框 而 言 ， 每 一 个 字段 ( 列 数据 ) 皆 是 一 个 向 量 ， 所 以 对 于 字段 之 间 的 运算 ， 也 可 以 
视 之 为 向 量 的 运算 


15-6-1 基本 数据 框 的 字段 运算 


实例 ch15_28 : 使 用 iris EAR, HAGE, TESERUEXERIIS BE LE 


> r <- iris$Sepal.Length / irisSPetal.Length 

-r 
[1] 3.642857 3.500000 3.615385 3.066667 3.571429 3.176471 3.285714 3.333333 
[9] 3.142857 3.266667 3.600000 3.000000 3.428571 3.909091 4.833333 3.800000 
[17] 4.153846 3.642857 3.352941 3.400000 3.176471 3.400000 4.600000 3.000000 
[25] 2.526316 3.125000 3.125000 3.466667 3.714286 2.937500 3.000000 3.600000 


[113] 1.236364 
[121] 1.210526 1.142857 1.149254 1.285714 1.175439 
[129] 1.142857 1.241379 1.213115 1.234375 1.142857 
[137] 1.125000 1.163636 1.250000 1.277778 1.196429 
[145] 1.175439 1.288462 1.260000 1.250000 1.148148 
> 


还 记得 吗 ? 如 果 不 想 显示 这 么 多 结果 ， 可 以 使 用 head O 函数 ， 默 认 是 显示 前 6 个 数据 ， 如 
下 所 示 。 


> head(r) 
[1] 3.642857 3.500000 3.615385 3.066667 3.571429 3.176471 
> 


.200000 1.291667 1.244898 
.235294 1.089286 1.262295 
.352941 1.137255 1.152542 
.156863 


[33] 3.466667 3.928571 3.266667 4.166667 4.230769 3.500000 3.384615 3.400000 
[41] 3.846154 3.461538 3.384615 3.125000 2.684211 3.428571 3.187500 3.285714 
[49] 3.533333 3.571429 1.489362 1.422222 1.408163 1.375000 1.413043 1.266667 
[57] 1.340426 1.484848 1.434783 1.333333 1.428571 1.404762 1.500000 1.297872 
[65] 1.555556 1.522727 1.244444 1.414634 1.377778 1.435897 1.229167 1.525000 
[73] 1.285714 1.297872 1.488372 1.500000 1.416667 1.340000 1.333333 1.628571 
[81] 1.447368 1.486486 1.487179 1.176471 1.200000 1.333333 1.425532 1.431818 
[89] 1.365854 1.375000 1.250000 1.326087 1.450000 1.515152 1.333333 1.357143 
[97] 1.357143 1.441860 1.700000 1.390244 1.050000 1.137255 1.203390 1.125000 
[105] 1.120690 1.151515 1.088889 1.158730 1.155172 1.180328 1.274510 1.207547 

1. 

1. 

1. 


1 
1 
1 
1 
140000 1.137255 1.207547 1.181818 1.149254 1.115942 1.200000 
1 
1 
1 
1 


289 


290 


R 语言 一 一 迈 向 大 数据 之 路 


15-6-2 with © 函数 


在 执行 数据 框 的 字段 运算 时 ， 给 “数据 框 名 称 ” 加 上 “$$"， 的 确 好 用 ,但 是 R 语言 开发 团 
队 仍 不 满足 ， 因 此 又 开发 了 一 个 好 用 的 函数 with ()， 使 用 这 个 函数 可 以 省 略 “$” 符 号， 甚至 也 
可 以 省 略 数据 框 的 名 称 。 这 个 函数 的 使 用 格式 如 下 所 示 。 

with ( data, expression, *… ) 
O data : 欲 处 理 的 对 象 。 


口 expression : 运算 公式 。 


实例 ch15_29 : 使 用 with O 函数 重新 设计 实例 ch15 28, HAGE, AESUORUEXHIS K BE TU - 


> r.With <- with(iris, Sepal.Length / Petal.Length) 

» head(r.with) 

[1] 3.642857 3.500000 3.615385 3.066667 3.571429 3.176471 
> 


对 上 述 实 例 而 言 ， 当 R 语言 遇 上 with (iris, … ) 时 ,编译 程序 就 知道 后 面 的 运算 公式 ， 是 属 
于 iris 的 字段 ， 因 此 运算 公式 可 以 省 略 对 象 名 称 ， 此 例 是 省 略 iris。 


15-6-3 identical ©) 函数 


identical () 函数 的 基本 作用 是 检测 两 个 对 象 是 否 完 全 相同 ， 如 果 完 全 相同 将 返回 TRUE， 否 
则 返回 FALSE。 在 实例 ch15_28 和 实例 ch15_19 中 ,笔者 使 用 了 两 种 方法 计算 意 尾 花 ， 花 蔓 和 花 
Wn HS BE LE. 
实例 ch15. 30 : 使 用 identical O 函数 检测 实例 ch15 28 和 实例 ch15_19 的 执行 结果 是 否 完全 相同 。 
> identical(r, r.with) 


[1] TRUE 
> 


15-6-4 ”将 字段 运算 结果 存 人 新 的 字段 

本 章 的 15-6-1 节 介 绍 了 数据 框 的 字段 运算 。 既 然 我 们 可 以 将 运算 结果 存 和 人 1 个 向 量 内 ， 那么 
我 们 也 可 以 将 数据 框 字 段 的 运算 结果 ， 存 人 该 数据 框 内 成 为 一 个 新 的 字段 。 
实例 ch15_31 : 使 用 iris 对 象 ， 计 算 音 尾 花 ， 花 昔 和 花 准 的 长 度 比 ， 同 时 将 运算 结果 存 人 iris 对 
象 的 新 字段 length.Ratio。 

> my.iris «- iris 

> my.irisSlength.Ratio <- my.iris$Sepal.Length / my.iris$Petal.Length 

在 上 述 程 序 中 ， 如 果 笔 者 忽略 了 “my.iris <- iris”"， 那 将 造成 在 执行 完 下 一 个 命令 后 ， 笔 者 系 
统 内 建 的 iris 对 象 被 更 改 ， 所 以 笔者 先 将 iris 对 象 复制 一 份 ， 并 命名 为 “my.iris”， 以 后 只 针对 新 
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对 象 做 编辑 。 其 实 也 建议 读者 养 成 尽量 不 要 更 改 系统 内 建 数据 集 的 习惯 。 下 列 是 笔者 验证 新 对 象 
“my.iris” 是 否 增加 字段 "length.Ratio" 的 执行 结果 。 


> head(my.iris) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species length.Ratio 


1 5.1 3.5 1.4 0.2 setosa 3.642857 
2 4.9 3.0 1.4 0.2 setosa 3.500000 
3 4.7 3.2 1.3 0.2 setosa 3.615385 
4 4.6 3.1 1.5 0.2 setosa 3.066667 
5 5.0 3.6 1.4 0.2 setosa 3.571429 
6 5.4 3.9 1.7 0.4 setosa 3.176471 
> 


由 上 述 最 右边 一 列 ， 可 以 知道 上 述 程序 执行 成 功 了 。 
15-6-5 within O 函数 


在 本 章 中 的 15-6-2 节 ， 笔 者 介绍 了 with O 函数 ， 有 了 它 在 字段 运算 时 可 以 省 略 对 象 名 称 和 
“s” R, within O 函数 也 具有 类 似 功能 ， 不 过 within O 函数 主要 是 用 于 在 字段 运算 时 ， 将 运 
算 结果 放 在 相同 对 象 的 新 建 字 段 中 ， 类 似 于 15-6-4 节 所 述 。 
实例 ch15_32 : 使 用 within O 函数 重新 设计 实例 ch15 31, 使 用 iris H, ASEE, EA 
花 激 的 长 度 比 ， 同 时 将 运算 结果 存 入 iris 对 象 的 新 字段 length.Ratio。 


> my.iris2 «- iris 
» my.iris2 «- within(my.iris2, length.Ratio «- Sepal.Length / Petal.Length) 
» head(my.iris2) 

Sepal.Length Sepal.Width Petal.Length Petal.Width Species length.Ratio 


1 5.1 3.5 1.4 0.2 setosa 3.642857 
2 4.9 3.0 1.4 0.2 setosa 3.500000 
3 4.7 3.2 1.3 0.2 setosa 3.615385 
4 4.6 3.1 1.5 0.2 setosa 3.066667 
5 5.0 3.6 1.4 0.2 setosa 3.571429 
6 5.4 3.9 1.7 0.4 setosa 3.176471 


> 

将 within O 函数 与 with O 函数 作 比 较 ， 差 别 其 实 主要 是 在 第 2 个 参数 。 在 执行 表达 式 前 的 
"length.Ratio <-”， 可 以 想 成 是 “新 域名 ”+“ 等 号 ”，R 语言 编译 时 会 将 运算 结果 存 人 这 个 新 字段 
(此 例 是 length.Ratio ) 中 。 当 然 我 们 也 可 以 使 用 identical () 函数 验证 my.iris 和 my.iris2 是 否 相同 。 
实例 ch15_33 : 使 用 identical O 函数 验证 my.iris 和 my.iris2 对 象 是 否 完全 相同 。 

> identical(my.iris, my.iris2) 

[1] TRUE 


> 


数据 的 分 害 


原始 数据 可 能 很 庞大 ， 有 时 我 们 可 能 会 想 将 数据 依据 某 些 条 件 进 行 等 量 分 割 ， 本 节 笔 者 将 使 
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用 之 前 章节 曾 用 过 的 系统 内 建 数据 集 state.x77 对 象 , 这 
> State.x77 
Population Income Illiteracy Life Exp Murder 
Alabama 3615 3624 2.1 69.05 15.1 
Alaska 365 6315 1.5 69.31 11.3 
Arizona 2212 4530 1.8 70.55 7.8 
Arkansas 2110 3378 1.9 70.66 10.1 
California 21198 5114 1.1 71.71 10.3 
Colorado 2541 4884 9.7 72.06 6.8 
Connecticut 3100 5348 1.1 72.48 3.1 
Delaware 579 4809 9.9 70.06 6.2 
Florida 8277 4815 1.3 70.66 10.7 
Georgia 4931 4091 2.0 68.54 13.9 


限于 篇 幅 ， 笔 者 并 没有 完全 打印 出 50 州 的 数据 
TA. 


15-7-1 cut O HX 


个 对 象 包含 美国 50 个 州 的 数据 ,如 下 所 示 。 


HS Grad Frost 
41.3 20 50708 
66.7 
58.1 
39.9 


， 本 实例 将 使 用 的 字段 是 Population， 单 位 是 


cut () 函数 可 以 将 数据 等 量 切割 ， 切 割 后 的 数据 将 是 因子 (Factor ) 数据 型 态 。 
实例 ch15_34 : 将 state.x77 对 象 依 人 口 数 做 分 割 ， 分 成 5 等 份 。 


> popu «- state.x77[, "Population"] 


» cut(popu, 5) # 分 割 成 5 等 份 

[1] 44,4.53e«03] (344,4.53e403] (344,4.53e403] 
[6] (344,4.53e«03] (344,4.53e403] (344,4.53e403] 
[11] (344,4.53e«03] (344,4.53e403] 


[16] (344,4.53e«03] (344,4.53e403] (344,4.53e403] 
[21] (4.53e«03,8.7e«03] (8.7e«03,1.29e«04] (344,4.53e403] 
[26] (344,4.53e«03] (344,4.53e403] (344,4.53e«03] 
[31] (344,4.53e«03] 
[36] (344,4.53e403] (344,4.53e403] 
[41] (344,4.53e«03] (344,4.53e403] 
[46] (4.53e«03,8.7e«03] (344,4.53e403] 





(344,4.53e403] 


(1.7e404,2.12e«04] (4.53e403,8.7e«03] (344,4.53e403] 
(8.7e«03,1.29e«04] (344,4.53e403] 
(8.7e403,1.29e404] (344,4.53e«03] 


(344,4.53e403] (1.7e404,2.12e«04] 
(4.53e«03,8.7e403] (4.53e403,8.7e«03] 


(8.7e«03,1.29e404] (4.53e403,8.7e«03] (344,4.53e«03] 


Q44,4.53e«03]  (344,4.53e+03] 
Q344,4.53e403] —— (4.53e403,8.7e403] 
Q344,4.53e403]  (4.53e+03,8.7e+03] 


(8.7e403,1.29e404] 
(344,4.53e+93] 
(344,4.53e+83] 
(4.53e+03,8.7e+03] (344,4.53e403] 


Levels: (344,4.53e+03] (4.53e403,8.7e«03] (8.7e+03,1.29e+04] (1.29e+04,1.7e+04] (1.7e404,2.12e404] 


> 


看 到 上 述 用 科学 符号 表示 的 数据 ， 笔 者 也 有 一 点 头 错 了， 其 实 方法 是 将 人 数 最 多 的 州 ， 减 去 


人 数 最 少 的 州 ， 再 均 分 成 5 等 份 。 
15-7-2 
接 下 来 我 们 将 以 实例 作 说 明 ， 让 数据 简洁 易 懂 。 


分 割 数据 时 直接 使 用 labels 设 定 名 称 


实例 ch15_35 : 分 割 Popu 数据 时 ， 按 人 口 数 由 多 到 少 ， 分 别 给 予 名 称 为 “High”“2nd”“3rd” 


“4th” “Low”。 


> cutCpopu, 5, labels = c("Low", "4th", "3rd", 
[1] Low Low Low Low High Low Low 
[16] Low Low Low Low Low 4th 3rd 
[31] Low High 4th Low 3rd Low Low 
[46] 4th Low Low 4th Low 

Levels: Low 4th 3rd 2nd High 

- 


Low 4th 4th 
Low Low 4th 
3rd Low Low 


"2nd", "High")) 

Low Low 3rd 4th Low 
Low Low Low Low 4th 
Low Low 3rd Low Low 
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15-7-3 了 解 每 一 人 口 数 分 类 有 多 少 州 


若 想 了 解 每 一 人 口 数 分 类 有 多 少 州 ， 可 以 使 用 第 6 章 6-8 节 所 介绍 的 table () 函数 。 
实例 ch15_36 : 延续 实例 ch15 35， 了 解 每 一 人 口 数 分 类 有 多 少 州 。 


> X.popu <- cut(popu, 5, labels = c("Low", "4th", "3rd", "2nd", "High")) 
» table(x.popu) 
x.popu 
Low 4th 3rd 2nd High 
34 9 5 e 2 
> 


由 以 上 数据 可 以 看 出 ， 美 国 绝 大 部 分 的 州 人 口 数 皆 在 453 万 之 内 。 美 国有 50 个 州 ， 笔 者 已 旅 
游 过 49 个 州 ， 只 能 说 美国 真是 地 大 物 博 、 得 天 独 厚 。 


数据 的 合并 


数据 分 析 师 在 数据 处 理 过 程 中 ,一 定 会 有 需要 将 数据 合并 的 时 候 ， 在 第 7 章 7-4 节 笔 者 曾 介 
绍 如 何 使 用 mind O 函数 增加 数据 框 的 行 数据 ， 当 然 先决 条 件 是 ， 两 组 数据 有 相同 的 字段 顺序 。 
在 第 7 章 的 7-5 节 笔 者 曾 介绍 如 何 使 用 cbind O 函数 增加 数据 框 的 列 数据 ， 当 然 先决 条 件 是 ，2 
组 数据 有 相同 的 列 顺序 ， 如 下 图 所 示 。 


< -所 增加 的 列 


< 一 所 增加 的 行 








rbind () 增加 行 的 图 cbind () 增加 列 的 图 
本 节 笔 者 将 介绍 使 用 merge O 函数 ， 将 两 个 对 象 依据 其 共有 的 特性 执行 合并 ， 如 下 图 所 示 。 


merge () 组 合 图 

















组 合 结果 图 
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当然 ， 两 组 数据 要 能 够 合并 或 称 组 合 ， 彼 此 的 键 值 ( Key ) 也 可 想 成 字段 数据 一 定 要 有 相当 的 
关联 ， 才 可 执行 彼此 的 合并 。 


15-8-1 之 前 的 准备 工作 

本 节 所 使 用 的 实例 仍 将 采用 R 语言 系统 内 建 的 数据 集 state.x77， 这 是 一 个 含有 行 ( Row ) 名 
称 及 列 (column ) 名 称 的 矩阵 。 
实例 ch15_37 : 将 state.x77 复制 一 份 ， 并 转 存 成 mystate.x77 数据 框 。 


> mystates.x77 «- as.data.frame(state.x77) 
» str(mystates.x77) 


'data.frame': 50 obs. of 8 variables: 

$ Population: num 3615 365 2212 2110 21198 ... 

$ Income num 3624 6315 4530 3378 5114 ... 

$ Illiteracy: num 2.1 1.5 1.8 1.9 1.1 0.7 1.10.9 1.32 ... 

$ Life Exp num 69 69.3 70.5 70.7 71.7 ... 

$ Murder num 15.1 11.3 7.8 10.1 10.3 6.8 3.1 6.2 10.7 13.9 ... 
$ HS Grad num 41.3 66.7 58.1 39.9 62.6 63.9 56 54.6 52.6 40.6 ... 
$ Frost num 20 152 15 65 20 166 139 103 11 60 ... 

$ Area num 50708 566432 113417 51945 156361 ... 


> 


由 上 述 “str ( mystates.x77 )” 可 知 ，mystate.x77 已 被 转 存 成 数据 框 了 
的 数据 框 增加 新 字段 Name. 
实例 ch15_38 : 为 mystates.x77 增加 第 9 个 字段 Name. 


， 接 下 来 ,我 们 为 这 个 新 


> mystates.x77$Name «- rownames(state.x77) 
» str(mystates.x77) 
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'data.frame': 50 obs. of 9 variables: 

$ Population: num 3615 365 2212 2110 21198 ... 

$ Income num 3624 6315 4530 3378 5114 ... 

$ Illiteracy: num 2.1 1.5 1.8 1.9 1.1 0.7 1.10.9 1.32 ... 

$ Life Exp num 69 69.3 70.5 70.7 71.7 ... 

$ Murder num 15.1 11.3 7.8 10.1 10.3 6.8 3.1 6.2 10.7 13.9 ... 
$ HS Grad num 41.3 66.7 58.1 39.9 62.6 63.9 56 54.6 52.6 40.6 ... 
$ Frost num 20 152 15 65 20 166 139 103 11 60 ... 

$ Area : num 50708 566432 113417 51945 156361 ... 

$ Name chr "Alabama" "Alaska" "Arizona" "Arkansas" ... 


> 


由 上 述 执行 结果 的 最 下 面 一 行 可 知 ， 我 们 已 经 成 功 为 mystates.x77 增加 Name 字段 了 。 如 果 此 


时 列 出 对 象 可 以 发 现 ， 行 名 是 州 名 ,在 已 有 Name 字段 后 ， 这 已 多 余 ， 如 下 图 所 示 。 


> head(mystates.x77) 


Population Income Illiteracy Life Exp Murder HS Grad Frost Area Name 
Alabama 3615 3624 2.1 69.05 15.1 41.3 20 50708 Alabama 
Alaska 365 6315 1.5 69.31 11.3 66.7 152 566432 Alaska 
Arizona 2212 4530 1.8 70.55 7.8 58.1 15 113417 Arizona 
Arkansas 2110 3378 1.9 70.66 10.1 39.9 65 51945 Arkansas 
California 21198 5114 3.1 71.71 10.3 62.6 20 156361 California 
Colorado 2541 4884 9.7 72.06 6.8 63.9 166 103766 Colorado 


> 
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实例 ch15_39 : 删除 mystates.x77 的 行 名 称 。 


> row.names(mystates.x77) «- NULL 
» head(mystates.x77) 


Population Income Illiteracy Life Exp Murder HS Grad Frost Area Name 
1 3615 3624 2.1 69.05 15.1 41.3 20 50708 Alabama 
2 365 6315 1.5 69.31 11.3 66.7 152 566432 Alaska 
3 2212 4530 1.8 70.55 7.8 58.1 15 113417 Arizona 
4 2110 3378 1.9 70.66 10.1 39.9 65 51945 Arkansas 
5 21198 5114 1.1 71.71 10.3 62.6 20 156361 California 
6 2541 4884 9.7 72.06 6.8 63.9 166 103766 Colorado 
> 


由 以 上 执行 结果 可 知 ， 行 名 称 被 删除 后 ， 系 统 将 以 数字 取代 。 接 下 来 ,我 们 需 使 用 上 述 
mystates.x77 对 象 ， 准 备 两 个 新 的 数据 框 做 未 来 合并 之 用 。 
实例 ch15 40 : 准备 mypopu.states 对 象 ， 筛 选 条 件 是 人 口 数 大 于 500 万 ， 由 于 原 对 象 人 口 单位 数 
是 千 人 ， 所 以 设 定 成 5000 即 可 。 同 时 这 个 新 对 象 需要 有 2 个 字段 ， 分 别 是 Name 和 Populations 

> mypopu.states «- mystates.x77[mystates.x77$Population > 5000, c("Name", "Population")] 


» mypopu.states 
Name Population 


5 California 21198 
9 Florida 8277 
13 Illinois 11197 
14 Indiana 5313 
21 Massachusetts 5814 
22 Michigan 9111 
30 New Jersey 7333 
32 New York 18076 
33 North Carolina 5441 
35 Ohio 10735 
38 Pennsylvania 11860 
43 Texas 12237 


> 


实例 ch15_41 : 准备 myincome.states 对 象 ， 筛 选 条 件 是 月 平均 收入 大 于 5000 美元 。 同 时 这 个 新 对 
象 需要 有 两 个 字段 ， 分 别 是 Name 和 Income, 


> myincome.states <- mystates.x77[mystates.x77$Income > 5000, c("Name", "Income")] 
» myincome.states 
Name Income 

2 Alaska 6315 
5 California 5114 
7 Connecticut 5348 
13 Illinois 5107 
20 Maryland 5299 
8 Nevada 5149 
30 New Jersey 5237 
34 North Dakota 5087 


15-8-2 merge O 函数 使 用 于 交集 合并 的 情况 
所 谓 交 集 是 指 两 个 条 件 皆 符合 ， 这 个 函数 的 基本 使 用 格式 如 下 所 示 。 


295 


296 


R 语言 一 一 迈 向 大 数据 之 路 


merge ( x, y, all = FALSE ) 

x,y 是 要 做 合并 的 对 象 ， 默 认 情 况 是 “all = FALSE"”， 所 以 若 省 略 这 个 参数 则 代表 执行 的 是 交 
集 的 合并 。 
实例 ch15_42 : 合并 mypopu.states 与 myincome.states 中 符合 人 口 数 超过 500 万 人 的 州 和 月 收入 超 
过 5000 美元 的 州 。 


> merge(mypopu.states, myincome.states) 
Name Population Income 


1 California 21198 5114 
2 Illinois 11197 5107 
3 New Jersey 7333 5237 
> 


上 述 执行 结果 产生 了 新 的 对 象 ， 其 中 Name 是 彼此 共有 的 字段 ，Population 字段 是 来 自 
mypopu.states 对 象 ，Income 字段 是 来 自 myincome.states 对 象 。 
15-8-3 merge O 函数 使 用 于 并 集合 并 的 情况 


所 谓 并 集 是 指 两 个 条 件 有 一 个 符合 即 可 ， 此 时 需 将 参数 “all = FALSE” 设 定 为 “al = TRUE". 
实例 ch15_43 : 合并 mypopu.states 与 myincome.states 中 符合 人 口 数 超过 500 万 人 或 月 收入 超过 
5000 美元 ， 其 中 一 个 条 件 的 州 。 





> merge(mypopu.states, myincome.states, all = TRUE) 
Name Population Income 


1 Alaska NA 6315 
2 California 21198 5114 
3 Connecticut NA 5348 
4 Florida 8277 NA 
5 Illinois 11197 5107 
6 Indiana 5313 NA 
7 Maryland NA 5299 
8 Massachusetts 5814 NA 
9 Michigan 9111 NA 
10 Nevada NA 5149 
11 New Jersey 7333 5237 
12 New York 18076 NA 
13 North Carolina 5441 NA 
14 North Dakota NA 5087 
15 Ohio 10735 NA 
16 Pennsylvania 11860 NA 
17 Texas 12237 NA 


> 


在 做 并 集合 并 的 过 程 中 ， 原 字段 不 存在 的 数据 将 以 NA 值 填充 。 
15-8-4 merge O 函数 参数 “all.x = TRUE" 
参数 “allx = TRUE” 中 ,x 是 指 merge () 函数 的 第 一 个 对 象 ， 使 用 merge O 函数 时 若 加 上 这 
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个 参数 ， 则 代表 所 有 x 对 象 的 数据 均 在 这 个 合并 结果 内 ， 在 合并 结果 中 原 属于 y 对 象 的 字段 ， 原 
字段 不 存在 的 数据 将 以 NA 值 填充 。 
实例 ch15_44 : 执行 mypopu.states 对 象 和 myincome.states 对 象 的 合并 ， 并 增加 参数 “allx= TRUE”. 


> merge(mypopu.states, myincome.states, all.x = TRUE) 
Name Population Income 


1 California 21198 5114 
2 Florida 8277 NA 
3 Illinois 11197 5107 
4 Indiana 5313 NA 
5 Massachusetts 5814 NA 
6 Michigan 9111 NA 
d New Jersey 7333 5237 
8 New York 18076 NA 
9 North Carolina 5441 NA 
10 Ohio 10735 NA 
11 Pennsylvania 11860 NA 
12 Texas 12237 NA 


由 上 述 执行 结果 可 知 ， 原 来 California、Ilinois 和 New Jersey 在 第 2 个 对 象 myincome.states 内 
就 有 值 存在 所 以 直接 填 和 人 值 ， 其 余 没 有 的 数据 则 填 和 人 NA。 


15-8-5 merge O 函数 参数 “all.y = TRUE" 

参数 “ally = TRUE” 中 ，y 是 指 merge () 函数 的 第 二 个 对 象 ， 使 用 merge O 函数 时 若 加 上 这 
个 参数 ， 则 代表 所 有 y 对 象 的 数据 均 在 这 个 合并 结果 内 ， 在 合并 结果 中 原 属于 x 对 象 的 字段 ， 原 
字段 不 存在 的 数据 将 以 NA 值 填充 。 
实例 ch15 44 : 执行 mypopu.states 对 象 和 myincome.states 对 象 的 合并 ， 并 增加 参数 “ally = TRUE" 


> merge(mypopu.states, myincome.states, all.y = TRUE) 
Name Population Income 


1 Alaska NA 6315 
2 California 21198 5114 
3 Connecticut NA 5348 
4 Illinois 11197 5107 
5 Maryland NA 5299 
6 Nevada NA 5149 
7 New Jersey 7333 5237 
8 North Dakota NA 5087 
> 


15-8-6 match O 函数 


match () 函数 类 似 于 取 两 个 对 象 的 交集 ， 完 整 解释 应 为 ， 对 第 一 个 对 象 x 的 某 行 数据 而 言 , 
若 在 第 二 个 对 象 y 内 找到 符合 条 件 的 数据 ， 则 返回 第 二 个 对 象 中 相应 数据 的 所 在 位 置 ( 可 想 成 索 
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引 值 )， 和 否则 返回 NA。 所 以 调用 完 match () 函数 后 会 返回 一 个 与 第 一 个 对 象 x 的 行 数 长 度 相同 的 
向 量 。 
实例 ch15 45 : 找 出 符合 人 口 数 多 于 500 万 ， 同 时 月 均 收 入 超过 5000 美元 的 行 数据 ， 在 对 象 
myincome.states 中 的 位 置 ， 这 个 实例 会 返回 一 个 向 量 ， 在 向 量 中 的 数值 ( 可 想 成 索引 值 ) 即 是 我 
们 要 的 结果 。 

> my.index <- match(mypopu.states$Name, myincome.states$Name) 

» my.index 


[1] 2 NA 4 NA NA NA 7 NA NA NA NA NA 
> 


上 述 my.index 的 长 度 是 12， 下 列 是 验证 mypopu.states 对 象 是 否 有 12 个 数据 。 
> lengths(mypopu.states) 
Name Population 
12 12 


由 上 述 执行 结果 可 知 我 们 的 结果 是 正确 的 ， 接 着 我 们 要 提取 出 符合 条 件 的 数据 。 
实例 ch15_46 : 提取 出 myincome.states 中 人 口 数 多 于 500 万 ， 同 时 月 均 收 入 超过 5000 美元 的 州 
数据 。 


> myincome.states[na.omit(my.index), ] 
Name Income 

5 California 5114 

13 Illinois 5107 

30 New Jersey — 5237 

> 


15-8-7 %in% 


使 用 %in% 符号 可 以 实现 类 似 于 前 一 小 节 mach O 函数 的 功能 ， 不 过 这 个 符号 将 返回 与 第 一 
个 对 象 长 度 相同 的 逻辑 向 量 ， 在 向 量 中 为 TRUE 的 元 素 表示 是 我 们 要 的 数据 。 
实例 ch15_47 : 使 用 %in% 重新 执行 实例 ch15_45， 找 出 符合 人 口 数 多 于 500 万 ， 同 时 月 均 收 入 
超过 5000 美元 的 数据 在 mypopu.states 中 的 逻辑 向 量 ， 将 这 个 逻辑 向 量 当 作 第 一 个 对 象 的 索引 值 ， 
在 向 量 中 的 逻辑 值 ( 可 想 成 索引 值 ) 是 TRUE 的 ， 即 是 我 们 要 的 结果 。 





> my.index2 <- mypopu.states$Name %in% myincome.states$Name 
> my.index2 
[1] TRUE FALSE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE 
[11] FALSE FALSE 
> 


经 以 上 实例 后 ， 对 %in% 符号 更 完整 的 解释 应 该 是 ， 当 第 一 个 对 象 在 第 二 个 对 象 内 找到 符合 
条 件 的 值 时 ， 则 传 回 TRUE， 和 否则 传 回 FALSE。 上 述 实例 同时 验证 传 回 向 量 的 长 度 是 12， 这 符合 
第 一 个 对 象 的 长 度 。 下 列 是 正式 列 出 符合 条 件 的 结果 。 
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实例 ch15 48 : 抽取 出 mypopu.states 中 人 口 数 多 于 500 万 ， 同 时 月 均 收入 超过 5000 美元 的 州 
数据 。 


> mypopu.states[my.index2, ] 
Name Population 


5 California 21198 
13 Illinois 11197 
30 New Jersey 7333 
> 


15-8-8 match O 函数 结果 的 调整 

match () 函数 返回 的 结果 是 一 个 向 量 ， 其 实 也 可 以 使 用 “lis.na ()” 函 数 ， 将 它 调整 为 逻辑 
向 量 。 
实例 ch15_49 : 修改 实例 ch15_45， 将 返回 结果 调整 为 多 辑 向 量 。 


> my.index <- match(mypopu.states$Name, myincome.states$Name) 
> my.index3 <- lis.na(my.index) 


下 列 是 my.index3 索引 向 量 的 内 容 。 


> my.index3 

[1] TRUE FALSE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE 
[11] FALSE FALSE 

> 


实例 ch15_50 : 使 用 实例 ch15_49 的 执行 结果 ， 提 取出 mypopu.states 中 人 口 数 多 于 500 万 ， 同 时 
月 均 收入 超过 5000 美元 的 州 数据 。 


> mypopu.states[my.index3, ] 


Name Population 
5 California 21198 
13 Illinois 11197 
30 New Jersey 7333 
> 


数据 的 排序 


在 第 4 章 的 4-2 节 笔 者 曾 介 绍 sort O 函数 具有 给 向 量 排序 的 功能 ， 本 节 将 针对 有 关 的 排序 知 
识 作 一 个 完整 的 说 明 。 


15-9-1 之 前 的 准备 工作 


为 了 方便 解说 ,我 们 将 使 用 之 前 多 次 使 用 的 R 语言 系统 内 建 的 数据 集 state.x77 和 state.region 
(这 是 美国 各 州 所 属 区 域 的 数据 集 ) 做 解说 。 
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实例 ch15 51 : 将 state.region XI AURI state.x 77 对 象 组 合成 数据 框 。 


> mystate.info <- data.frame(Region = state.region, state.x77) 


> head(mystate.info) # 列 出 前 6 个 行 数 据 

Region Population Income Illiteracy Life.Exp Murder HS.Grad Frost Area 
Alabama South 3615 3624 2.1 69.05 15.1 41.3 20 50708 
Alaska West 365 6315 1.5 69.31 11.3 66.7 152 566432 
Arizona West 2212 4530 1.8 70.55 7.8 58.1 15 113417 
Arkansas South 2110 3378 1.9 70.66 10.1 39.9 65 51945 
California West 21198 5114 1.1 71.71 10.3 62.6 20 156361 
Colorado West 2541 4884 0.7 72.06 6.8 63.9 166 103766 


> 


目前 上 述 mystate.info 数据 框 对 象 是 用 州 名 的 英文 首 字母 排序 。 为 了 能 完整 表达 Region 字段 ， 
可 以 包括 所 有 4 区 的 数据 ， 笔 者 将 取 mystate.info 对 象 的 前 15 个 行 数据 。 


实例 ch15_52 : 取得 前 一 节 实 例 所 建 mystate.info 数据 框 对 象 的 前 15 个 行 数据 。 


> state.info «- mystate.info[1:15, ] 


> Sstate.info 

Region Population Income Illiteracy Life.Exp Murder HS.Grad Frost Area 
Alabama South 3615 3624 2.1 69.058 15.1 41.3 20 50708 
Alaska West 365 6315 1.5 69.31 11.3 66.7 152 566432 
Arizona West 2212 4530 1.8 70.55 7.8 58.1 15 113417 
Arkansas South 2110 3378 1.9 70.66 10.1 39.9 65 51945 
California West 21198 5114 1.1 71.71 10.3 62.6 20 156361 
Colorado West 2541 4884 9.7 72.06 6.8 63.9 166 103766 
Connecticut Northeast 3100 5348 1.1 72.48 3.1 56.0 139 4862 
Delaware South 579 4809 e.9 70.06 6.2 54.6 103 1982 
Florida South 8277 4815 1.3 70.66 10.7 52.6 11 54090 
Georgia South 4931 4091 2.0 68.54 13.9 40.6 60 58073 
Hawaii West 868 4963 1.9 73.60 6.2 61.9 9 645 
Idaho West 813 4119 9.6 71.87 5.3 59.5 126 82677 
Illinois North Central 11197 5107 9.9 70.14 10.3 52.6 127 55748 
Indiana North Central 5313 4458 9.7 70.88 7.1 52.9 122 36097 
Iowa North Central 2861 4628 9.5 72.56 2.3 59.0 140 55941 


本 章 15-9 节 中 其 他 小 节 的 实例 将 以 上 述 所 建 的 state.info 数据 框 为 例 作 说 明 。 


15-9-2 向量 的 排序 


笔者 在 第 4 章 4-2 节 的 实例 ch4_27 和 4-9-3 节 的 实例 ch4_85 已 介绍 过 向 量 的 排序 ， 本 节 将 
举 不 同 实例 解说 。 其 实 对 前 一 小 节 所 建 的 数据 框 而 言 ， 每 个 字段 均 是 一 个 向 量 ， 所 以 我 们 可 用 下 
列 方式 排序 。 
实例 ch15_53 : 升序 ， 依 照 收 入 将 state.info 对 象 的 Income 字段 的 数据 由 小 排 到 大 。 


> sort(state.info$Income) 
[1] 3378 3624 4091 4119 4458 4530 4628 4809 4815 4884 4963 5107 5114 5348 6315 
- 


实例 chi5 54 : 递减 排序 ， 依 照 收入 将 state.info 对 象 的 Income 字段 的 数据 由 大 排 到 小 。 
> sort(state.info$Income, decreasing = TRUE) 


[1] 6315 5348 5114 5107 4963 4884 4815 4809 4628 4530 4458 4119 4991 3624 3378 
> 
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15-9-3 order () 函数 


order () 也 是 一 个 排序 函数 ， 这 个 函数 将 返回 排序 后 向 量 的 每 一 个 元 素 在 原 向 量 中 的 位 置 
(索引 值 )。 


实例 ch15_55 : 使 用 order O 函数 取代 sort O 函数 ， 重 新 执行 实例 ch15_53 的 升序 排列 ， 以 便 了 
fif order () 函数 的 意义 。 


> order(state.info$Income) 
[1] 4 1101214 315 8 9 61113 5 7 2 
区 


上 述 执行 结果 在 order O 函数 的 升序 排列 过 程 中 的 意义 如 下 所 示 。 

向 量 的 第 1 个 位 置 应 放 原 向 量 的 第 4 个 数据 。 

向 量 的 第 2 个 位 置 应 放 原 向 量 的 第 1 个 数据 。 

向 量 的 第 3 个 位 置 应 放 原 向 量 的 第 10 个 数据 。 

其 他 依 此 类 推 ， 下 一 小 节 将 配合 数据 框 作 一 个 完整 说 明 。 这 个 函数 的 默认 情况 和 sort O 函数 
相同 ， 有 一 个 参数 默认 是 “decreasing = FALSE”， 表 示 是 执行 升序 排列 ， 如 果 想 执行 递减 排序 需 
增加 参数 “decreasing = TRUE" > 
实例 ch15 56 : 使 用 order O 函数 取代 sort O 函数 ， 重 新 执行 实例 ch15_54 的 递减 排序 ， 以 便 了 
解 order () 函数 的 意义 。 


> order(state.info$Income, decreasing = TRUE) 
[1] 27 51311 6 9 815 3141210 1 4 


上 述 执行 结果 在 order () 函数 的 递减 排序 过 程 中 的 意义 如 下 所 示 。 
向 量 的 第 1 个 位 置 应 放 原 向 量 的 第 2 个 数据 。 
向 量 的 第 2 个 位 置 应 放 原 向 量 的 第 7 个 数据 。 
向 量 的 第 3 个 位 置 应 放 原 向 量 的 第 5 个 数据 。 
其 他 依 此 类 推 ， 如 果 讲 解 至 此 对 order O 函数 的 返回 结果 仍 不 太 明 白 ， 没 关系 ， 下 一 小 节 笔 
者 将 配合 数据 框 作 一 个 完整 说 明 。 


15-9-4 数据 框 的 排序 


其 实 如 果 将 order () 函数 返回 结果 的 向 量 放 在 原 state.info 数据 框 对 象 当 作 索引 向 量 ， 那 么 前 
一 小 节 的 意义 将 变 得 很 清楚 。 
实例 ch15_57 : 对 state.info 数据 框 依据 Income 字段 执行 升序 排列 。 
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> inc.order «- order(state.info$Income) 
» state.info[inc.order, ] 
Region Population Income Illiteracy Life.Exp Murder HS.Grad Frost Area 


Arkansas South 2110 3378 1.9 70.66 10.1 39.9 65 51945 
Alabama South 3615 3624 2.1 69.05 15.1 41.3 20 50708 
Georgia South 4931 4091 2.0 68.54 13.9 49.6 60 58073 
Idaho West 813 4119 0.6 71.87 5.3 59.5 126 82677 
Indiana North Central 5313 4458 9.7 70.88 7.1 52.9 122 36097 
Arizona West 2212 4530 1.8 70.55 7.8 58.1 15 113417 
Iowa North Central 2861 4628 e.5 72.56 2.3 59.0 140 55941 
Delaware South 579 4809 9.9 70.06 6.2 54.6 103 1982 
Florida South 8277 4815 1.3 70.66 10.7 52.6 11 54090 
Colorado West 2541 4884 9.7 72.06 6.8 63.9 166 103766 
Hawaii West 868 4963 1.9 73.60 6.2 61.9 0 645 
Illinois North Central 11197 5107 e.9 70.14 10.3 52.6 127 55748 
California West 21198 5114 1.1 71.71 10.3 62.6 20 156361 
Connecticut Northeast 3100 5348 1.1 72.48 3.1 56.0 139 4862 
Alaska West 365 6315 1.5 69.31 11.3 66.7 152 566432 


由 上 述 执行 结果 可 以 看 到 ， 整 个 数据 框 数据 已 依照 Income 字段 执行 升序 排列 了 。 
实例 ch15_58 : 对 state.info 数据 框 依据 Income 字段 执行 递减 排序 。 
> dec.order <- order(state.info$Income, decreasing = TRUE) 


» state.info[dec.order, ] 
Region Population Income Illiteracy Life.Exp Murder HS.Grad Frost Area 


Alaska West 365 6315 1.5 69.31 11.3 66.7 152 566432 
Connecticut Northeast 3100 5348 1.1 72.48 3.1 56.0 139 4862 
California West 21198 5114 1.1 71.71 10.3 62.6 20 156361 
Illinois North Central 11197 5107 e.9 70.14 10.3 52.6 127 55748 
Hawaii West 868 4963 1.9 73.60 6.2 61.9 8 6425 
Colorado West 2541 4884 9.7 72.06 6.8 63.9 166 103766 
Florida South 8277 4815 1.3 70.66 10.7 52.6 11 54090 
Delaware South 579 4809 9.9 70.06 6.2 54.6 103 1982 
Iowa North Central 2861 4628 9.5 72.56 2.3 59.0 140 55941 
Arizona West 2212 4530 1.8 70.55 7.8 58.1 15 113417 
Indiana North Central 5313 4458 9.7 70.88 7.1 52.9 122 306097 
Idaho West 813 4119 9.6 71.87 5.3 59.5 126 82677 
Georgia South 4931 4091 2.0 68.54 13.9 40.6 60 58073 
Alabama South 3615 3624 2.1 69.05 15.1 41.3 20 50708 
Arkansas South 2110 3378 1.9 70.66 10.1 39.9 65 51945 


> 


由 上 述 执行 结果 可 以 看 到 ， 整 个 数据 框 数据 已 依照 Income 字段 执行 递减 排序 了 。 


15-9-5 ”排序 时 增加 次 要 键 值 的 排序 





前 一 节 的 实例 是 建立 在 只 有 一 个 键 值 为 基础 的 排序 上 , 但 是 在 真实 的 应 用 中 ,我 们 可 能 会 


面临 当主 要 键 值 排序 相同 时 ,需要 使 用 次 要 键 值 作为 排序 依据 的 情况 ， 此 时 就 要 使 月 





日本 节 所 介 


绍 的 方法 。 其 实 很 简单 只 要 在 order O 函数 内 ， 将 欲 作 次 要 键 值 的 域名 当 作 第 二 参数 即 可 ， 此 时 


order () 函数 的 使 用 格式 如 下 所 示 。 
order ( 主要 键 值 , 次 要 键 值 ,… ) 
口 “…” 表 示 可 以 有 更 多 其 他 更 次 要 的 键 值 。 
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实例 ch15_59 : 以 state.info 数据 框 为 例 ， 将 Region 作为 主要 键 值 ，Income 当 作 次 要 键 值 ， 执 行 
升序 排列 。 


> inc.order2 <- order(state.info$Region, state.info$Income) 
» state.info[inc.order2, ] 
Region Population Income Illiteracy Life.Exp Murder HS.Grad Frost Area 


Connecticut Northeast 3100 5348 1.1 72.48 3.1 56.0 139 4862 
Arkansas South 2110 3378 1.9 70.66 10.1 39.9 65 51945 
Alabama South 3615 3624 2.1 69.05 15.1 41.3 20 50708 
Georgia South 4931 4091 2.0 68.54 13.9 40.6 60 58073 
Delaware South 579 4809 9.9 70.06 6.2 54.6 103 1982 
Florida South 8277 4815 1.3 70.66 10.7 52.6 11 54090 
Indiana North Central 5313 4458 9.7 70.88 7.1 52.9 122 36097 
Iowa North Central 2861 4628 9.5 72.56 2.3 59.0 140 55941 
Illinois North Central 11197 5107 9.9 70.14 10.3 52.6 127 55748 
Idaho West 813 4119 9.6 71.87 5.3 59.5 126 82677 
Arizona West 2212 4530 1.8 70.55 7.8 58.1 15 113417 
Colorado West 2541 4884 9.7 72.06 6.8 63.9 166 103766 
Hawaii West 868 4963 1.9 73.60 6.2 61.9 0 6425 
California West 21198 5114 1.1 71.71 10.3 62.6 20 156361 
Alaska West 365 6315 1.5 69.31 11.3 66.7 152 566432 


> 


Central” 之 间 ， 好 像 是 R 语言 系统 的 错误 ， 如 果 使 用 相同 字符 串 ， 


Q 在 上 述 字符 串 的 排序 结果 中 “South” 在 “Northeast” 和 “North 
用 Excel 执行 升序 排列 ， 结 果 如 右 所 示 。 





其 实 不 是 R 的 问题 ， 因 为 state.region 是 一 个 因子 ， 可 参考 下 列 说 明 。 


> class(state.region) 
[1] "factor" 
> 


如 果 输 入 state.region 验证 。 


> state.region 


[1] South West West South West 

[6] West Northeast South South South 

[11] West West North Central North Central North Central 
[16] North Central South South Northeast South 

[21] Northeast North Central North Central South North Central 
[26] West North Central West Northeast Northeast 
[31] West Northeast South North Central North Central 
[36] South West Northeast Northeast South 

[41] North Central South South West Northeast 
[46] South West South North Central West 


Levels: Northeast South North Central West 
> 


由 最 后 一 行 可 以 看 到 Levels 的 排序 是 如 下 所 示 。 
Northeast South | North Central West 
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对 因子 而 言 order () 函数 的 排序 ， 相 当 于 是 执行 Levels 排序 ， 所 以 在 使 用 此 功能 时 应 该 小 心 。 
实例 ch15_60 : 以 state.info 数据 框 为 例 ， 将 Region 作为 主要 键 值 ，Income 当 作 次 要 键 值 ， 执 行 递 
减 排序 。 


> dec.order2 <- order(state.info$Region, state.info$Income, decreasing = TRUE) 
» state.info[dec.order2, ] 
Region Population Income Illiteracy Life.Exp Murder HS.Grad Frost Area 


Alaska West 365 6315 1.5 69.31 11.3 66.7 152 566432 
California West 21198 5114 1.1 71.71 10.3 62.6 20 156361 
Hawaii West 868 4963 1.9 73.60 6.2 61.9 0 6425 
Colorado West 2541 4884 9.7 72.06 6.8 63.9 166 103766 
Arizona West 2212 4530 1.8 70.55 7.8 58.1 15 113417 
Idaho West 813 4119 9.6 71.87 5.3 59.5 126 82677 
Illinois North Central 11197 5107 9.9 70.14 10.3 52.6 127 55748 
Iowa North Central 2861 4628 e.5 72.56 2.3 59.0 140 55941 
Indiana North Central 5313 4458 9.7 70.88 7.1 52.9 122 306097 
Florida South 8277 4815 1.3 70.66 10.7 52.6 11 54090 
Delaware South 579 4809 9.9 70.06 6.2 54.6 103 1982 
Georgia South 4931 4091 2.0 68.54 13.9 40.6 60 58073 
Alabama South 3615 3624 2.1 69.05 15.1 41.3 20 50708 
Arkansas South 2110 3378 1.9 70.66 10.1 39.9 65 51945 
Connecticut Northeast 3100 5348 1.1 72.48 3.1 56.0 139 4862 


$ 


15-9-6 混合 排序 与 xtfrm O 函数 


有 时 候 我 们 可 能 会 想 要 将 部 分 字段 在 排序 时 使 用 升序 排列 ， 部 分 字段 使 用 递减 排序 ， 此 时 可 
以 使 用 xtfrm O 函数 。 这 个 函数 可 以 将 原 向 量 转 成 数值 向 量 ， 当 你 想 要 以 不 同方 式 排序 时 ， 只 要 
在 xtfrm O 函数 前 加 上 减 号 (”- ”) 即 可 。 
实例 ch15_61 : 混合 排序 的 应 用 ， 以 state.info 数据 框 为 例 ， 将 Region 作为 主要 键 值 执 行 升序 排 
Jl, Income 当 作 次 要 键 值 执行 递减 排序 。 

> mix.order «- order(state.info$Region, -xtfrm(state.info$Income)) 


» state.info[mix.order, ] 
Region Population Income Illiteracy Life.Exp Murder HS.Grad Frost Area 


Connecticut Northeast 3100 5348 1.1 72.48 3.1 56.0 139 4862 
Florida South 8277 4815 1.3 70.66 10.7 52.6 11 54090 
Delaware South 579 4809 9.9 70.06 6.2 54.6 103 1982 
Georgia South 4931 4091 2.0 68.54 13.9 40.6 60 58073 
Alabama South 3615 3624 2.1 69.05 15.1 41.3 20 50708 
Arkansas South 2110 3378 1.9 70.66 10.1 39.9 65 51945 
Illinois North Central 11197 5107 9.9 70.14 10.3 52.6 127 55748 
Iowa North Central 2861 4628 e.5 72.56 2.3 59.0 140 55941 
Indiana North Central 5313 4458 9.7 70.88 7.1 52.9 122 36097 
Alaska West 365 6315 1.5 69.31 11.3 66.7 152 566432 
California West 21198 5114 1.1 71.71 10.3 62.6 20 156361 
Hawaii West 868 4963 1.9 73.60 6.2 61.9 0 645 
Colorado West 2541 4884 9.7 72.06 6.8 63.9 166 103766 
Arizona West 2212 4530 1.8 70.55 7.8 58.1 15 113417 
Idaho West 813 4119 9.6 71.87 5.3 59.5 126 82677 


> 


请 读者 比较 上 述 实 例 与 实例 ch15_59， 特 别 是 Income 字段 ， 即 可 了 解 混合 排序 的 意义 。 
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(EI 系统 内 建 数据 集 mtcars 


mtcars 数据 集 是 各 种 汽车 发 动机 数据 ， 可 用 str O 函数 了 解 其 结构 。 


> str(mtcars) 
'data.frame': 
$ mpg : num 
$ cyl : num 


^ V^ ^ A A A A A ^ 
£g 
$ 
3 
5 


v 





32 obs. of 11 variables: 
21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ... 
6646868446... 


160 160 108 258 360 ... 

110 110 93 110 175 105 245 62 95 123 ... 

3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ... 
2.62 2.88 2.32 3.21 3.44 ... 

16.5 17 18.6 19.4 17 ... 

0011010111... 

1110000000... 

4443333444... 

4411214224... 


下 列 是 前 6 个 记录 
> head(mtcars) 


mpg cyl disp hp drat wt qsec vs am gear carb 


Mazda RX4 21.0 (6 160 110 3.90 2.620 16.46 0 1 4 4 
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 
Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1 


> 


上 述 数 据 集中 有 几 个 字段 的 意义 如 下 所 示 。 
O mpg : mile per gallon， 表 示 每 加 仑 汽油 可 行驶 距离 。 


O cyl: 汽缸 数 ， 


有 4、6 和 8 等 3 种 汽 饶 数 。 


口 am :“0” 表 示 自 排 ,“1” 表 示 手 排 。 


实例 ch15 62 : 由 上 述 mtcars 数据 集 ， 计 算 4、6 和 8 等 3 种 汽缸 数 ， 每 加 仑 汽油 平均 可 行驶 的 


距离 。 


> with(mtcars, tapply(mpg, cyl, mean)) 


4 


6 8 


26.66364 19.74286 15.10000 


> 


实例 ch15_63 : 计算 自 排 和 手 排 车 ， 每 加 仑 汽油 平均 可 行驶 的 距离 。 


> with(mtcars, tapply(mpg, am, mean)) 


1 


17.14737 24.39231 


- 
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如 果 我 们 想 将 上 述 返回 结果 的 “0” 改 成 “ 自 排 ”,“1” 改 成 “ 手 排 ”， 可 参考 下 列 实例 。 
实例 ch15_64.R : 重新 执行 实例 ch15 63， 但 将 执行 结果 的 “0” 改 成 “ 自 排 ",“1” 改 成 “ 手 排 "。 


ms 

2 # 实例 ch15_64.R 

32 

4 chi15 64 <- function( ) 

Ext 

6 mycar «- within(mtcars, 

7 am <- factor(am, levels = 0:1, 

8 labels - c("Auto", "Manual"))) 


9 X «- with(mycar, tapply(mpg, am, mean)) 
10 print(x) 
UE } 


[ 执行 结果 ] 


> Ssource('-/Rbook/ch15/ch15. 64.R') 
> ch15 64( ) 

Auto Manual 
17.14737 24.39231 


上 述 实例 的 第 6 行 至 第 8 行 实际 是 一 条 代码 ， 主 要 功能 是 将 原 数据 集 mtcars 的 am 字段 改 成 
因子 ， 为 了 不 影响 原 系统 内 建 数据 集 mtcars 的 内 容 ， 因 此 将 结果 设 定 为 新 的 对 象 mycar。 
实例 ch15_65.R : 以 mtcars 数据 集 为 例 ， 计 算 在 各 种 自 排 或 手 排 以 及 各 种 汽缸 数 下 ， 每 加 仑 汽油 
平均 可 行驶 的 距离 。 


Te 
2 # 实例 ch15_65.R 
: LI 
4 chi5 65 <- function( ) 
Bg í 
6 mycar <- within(mtcars, 
rd am «- factor(am, levels - 0:1, 
8 labels - c("Auto", "Manual"))) 
9 X «- with(mycar, tapply(mpg, list(cyl, am), mean)) 
10 print(x) 
cM 
[执行 结果 ] 
> source('-/Rbook/ch15/ch15. 65.R') 
> chi5.65( ) 
Auto Manual 


4 22.900 28.07500 
6 19.125 20.56667 
8 15.050 15.40000 


> 
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(HE aggregate () 函数 


15-11-1. 基本 使 用 
aggregate () 函数 的 使 用 格式 与 tapply O 函数 类 似 , 但 是 tapply O 函数 可 以 返回 串 行 
(List), aggregate () 函数 则 传 回 向 量 ( Vector )、 和 矩阵 ( Matrix ) 或 三 维 或 多 维 数组 (Array), € 
的 使 用 格式 如 下 所 示 。 
aggregate ( x, by, FUN, … ) 
O x: 要 处 理 的 对 象 ， 通 常 是 向 量 ( Vector) 变量 ,也 可 是 其 他 数据 型 态 。 
口 by : 一 个 或 多 个 串 行 (List ) 变量 。 
口 FUN : 预计 使 用 的 函数 。 
口 … FUN 函数 所 需 的 额外 参数 。 


实例 ch15_66.R : 以 aggregate () 函数 重新 设计 实例 ch15_65.R。 


1 # 
2 # 实例 ch15_66.R 
- LJ 
4 chi5.66 <- function( ) 
5-t 
6 mycar «- within(mtcars, 
t am <- factor(am, levels = 0:1, 
8 labels = c("Auto", "Manual"))) 
9 X «- with(mycar, aggregate(mpg, 
10 list(cyl-cyl, am-am), mean)) 
11 print(x) 
E20 } 
[ 执行 结果 ] 
> Ssource('-/Rbook/ch15/ch15. 66.R') 
> chi5 66( ) 
cyl am x 
1 4 Auto 22.90000 
2 6 Auto 19.12500 
3 8 Auto 15.05000 
4 4 Manual 28.07500 
5 6 Manual 20.56667 
6 8 Manual 15.40000 
- 


15-11-2. 公式 符号 Formula Notation 


本 节 的 重点 公式 符号 (Formula Notation ) 指 的 是 统计 学 的 符号 ， 下 列 是 一 些 基 本 的 公式 符号 
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的 用 法 。 
1)y~a:y 是 a 的 函数 。 
2)y~a+b:y 是 a 和 b 的 函数 。 
3)y~a-b:y 是 a 的 函数 但 排除 b。 
实例 ch15_67.R : 以 公式 符号 的 观念 重新 设计 实例 ch15_66.R。 








实例 ch15_67.R 


h15_67 <- function( ) 


r^ O 3t o3X*o3* 


4 


mycar <- within(mtcars, 
am <- factor(am, levels = 0:1, 
labels - c("Auto", "Manual"))) 
X «- aggregate(mpg ~ cyl + am, data = mycar, mean) 
print(x) 
} 


EBoæonouswne 


[ 执行 结果 ] 


> source('^/Rbook/ch15/ch15. 67.R') 
> ch15 67( ) 
cyl am mpg 

4 Auto 22.90000 

6 Auto 19.12500 

8 Auto 15.05000 

4 Manual 28.07500 

6 Manual 20.56667 

8 Manual 15.40000 


vousxummm 


上 述 程序 的 第 9 行 ,“mpg~cyltam” 表 示 mpg 是 cyl 和 am 的 函数 。 另 外 ， 在 aggregate () 
数 内 需 增 加 “data = mycar”, WE, aggregate () 函数 才 了 解 是 处 理 mycar 对 象 。 


LE 建立 与 认识 数据 表格 


在 正式 介绍 本 节 内 容 前 ， 笔 者 想 先 建立 一 个 数据 框 (Data Frame )。 
实例 ch15_68 : 建立 一 个 篮球 比赛 数据 的 数据 框 。 


> game <- c("Gl", "G2", "G3", "G4", "G5") # 比 赛场 次 
> site «- c("Memphis", "Oxford", "Lexington", "Oxford", "Lexington") # 比 赛 地 点 


» Lin «- c(15, 6, 26, 22, 18) Slin&igkí8o 

» Jordon «- c(18, 32, 21, 25, 12) 大 ]ordon 各 场次 得 分 
> Peter <- c(10, 6, 22, 9, 12) 并 Peter 各 场次 得 分 
> balls <- data.frame(game, site, Lin, Jordon, Peter) 
» balls 


game site Lin Jordon Peter 
1 G1 Memphis 15 18 10 
2 G Oxford 6 32 6 
3 G3 Lexington 26 21 22 
4 G4 Oxford 22 25 9 
5 G5 Lexington 18 12 12 
> 
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上 述 是 Lin Jordon 和 Peter 三 位 球员 在 各 个 球场 的 5 场 比赛 得 分 。 


15-12-1 认识 长 格式 数据 与 宽 格 式 数据 


长 格式 ( Long Format ) 和 宽 格 式 ( Wide Format ) 基本 上 是 指 相同 的 数据 使 用 不 同方 式 所 呈 
现 的 效果 。 若 以 上 述 所 建 的 balls 对 象 而 言 ， 字 有 段 数据 分 别 叙述 场次 “game”、 地 点 “site”、 球 员 
“Lin”、“Jordon” 和 “Peter” 在 不 同 球场 各 场次 的 得 分 ， 以 这 种 数据 格式 呈现 的 数据 表 为 宽 格式 


如 果 我 们 将 同样 的 数据 框 以 下 列 方式 表达 ， 则 称 长 格式 数据 表 。 


数据 表 。 

game site variable value 
£ G1 Memphis Lin 15 
2 G2 Oxford Lin 6 
3 G3 Lexington Lin 26 
4 G4 Oxford Lin 22 
5 G5 Lexington Lin 18 
6 G1 Memphis Jordon 18 
7 G2 Oxford Jordon 32 
8 G3 Lexington Jordon 21 
9 G4 Oxford Jordon 25 
10 G5 Lexington Jordon 12 
11 G1 Memphis Peter 10 
12 G Oxford Peter 6 
13 G3 Lexington Peter 22 
14 G4 Oxford Peter 9 
15 G5 Lexington Peter 12 


若 将 长 格式 数据 与 宽 格式 数据 作 比 较 ， 可 以 发 现 原 字段 “Lin”、 


“Jordon” FI “Peter” AT , 


取而代之 的 是 “variable” 字 段 和 “value” 字 段 -“variable” 字 段 内 含 各 球员 数据 ,“value” 字 段 则 
是 得 分 数据 。 当 然 ， 我 们 可 以 更 改 “variable” 和 “value” 名 称 ，15-2-3 节 会 介绍 。 


15-12-2 reshapes2 扩展 包 


reshapes2 扩展 包 是 Hadley Wickham 先生 所 开发 的 ， 主 要 功能 是 可 以 很 简单 地 让 你 执行 长 格式 
(Long Format ) 和 宽 格 式 ( Wide Format ) 数据 的 转换 。 可 以 使 用 下 列 方式 下 载 并 安装 。 
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> install.packages("reshape2") # 安 装 
also installing the dependencies ‘plyr’, *Rcpp' 


尝试 URL 'http://cran.rstudio.com/bin/macosx/contrib/3.2/plyr 1.8.3.tgz" 
Content type 'application/x-gzip' length 786129 bytes (767 KB) 





downloaded 767 KB 


尝试 URL 'http://cran.rstudio.com/bin/macosx/contrib/3.2/Rcpp. 0.12.0.tgz " 
Content type 'application/x-gzip' length 2591089 bytes (2.5 MB) 





downloaded 2.5 MB 


尝试 URL 'http://cran.rstudio.com/bin/macosx/contrib/3.2/reshape2 1.4.1.tgz* 
Content type 'application/x-gzip' length 191395 bytes (186 KB) 





downloaded 186 KB 


The downloaded binary packages are in 


/var/folders/4y/b1g8hggj1qj 4qfvnrctdp240000gn/T//Rtmp1VBKyI/downloaded packages 
> 


可 以 使 用 下 列 方 式 加 载 。 
> library("reshape2") # 下 载 


15-12-3 将 宽 格 式 数据 转 成 长 格式 数据 melt O 函数 


1E reshape2 扩展 包 中 ， 将 宽 格式 数据 转 成 长 格式 数据 被 称 为 融化 ( Melt )，reshape2 函数 提供 
T melt O 函数 可 以 执行 此 任务 ， 这 个 函数 的 基本 使 用 格式 如 下 所 示 。 
melt ( data, +++, id.vars= “id.var” , variable.name = "variable" , value.name= “value” ) 


口 data : 宽 格 式 对 象 。 

口 id.vars : 字段 变量 名 称 ， 如 果 省 略 ， 系 统 将 自动 抓 取 原 宽 格式 的 字段 ， 一 般 也 可 满足 需求 。 
口 variable.name : 设 定 variable 字段 变量 的 名 称 ， 默 认 是 “variable”。 

口 value.name : 设 定 value 字段 变量 的 名 称 ， 默 认 是 “value”。 


实例 ch15_69 : 将 balls 对 象 由 宽 格式 转 成 长 格式 。 


> lballs «- melt(balls) 
Using game, site as id variables 
- 


上 述 提示 显示 系统 自动 使 用 game 和 site 当 作 字段 变量 ， 其 实 我 们 可 以 将 这 个 想 成 数据 库 的 键 
值 ， 下 列 是 验证 结果 。 


CHAPTER 15 数据 分 析 与 处 理 


> lballs 

game site variable value 
1 Gi Memphis Lin 15 
2 G2 Oxford Lin 6 
3 G3 Lexington Lin 26 
4 G4 Oxford Lin 22 
5 G5 Lexington Lin 18 
6 G1 Memphis Jordon 18 
7 G2 Oxford  Jordon 32 
8 G3 Lexington Jordon 21 
9 G4 Oxford Jordon 25 
10 G5 Lexington Jordon 12 
11 G1 Memphis Peter 10 
12 G2 Oxford Peter 6 
13 G3 Lexington Peter 22 
14 G4 Oxford Peter 9 
15 G5 Lexington Peter i2 


当然 我 们 也 可 以 明显 地 指出 id.var 具体 的 名 称 。 
实例 ch15 70 : 将 balls 对 象 由 宽 格 式 转 成 长 格式 ， 本 实例 具体 指出 字段 变量 名 称 。 


> lballs2 «- melt(balls, id.vars = c("game", "site")) 


» lballs2 

game site variable value 
1 G1 Memphis Lin 15 
2 G2 Oxford Lin 6 
3 G3 Lexington Lin 26 
4 G4 Oxford Lin 22 
5 G5 Lexington Lin 18 
6 G1 Memphis Jordon 18 
7 G2 Oxford Jordon 32 
8 G3 Lexington Jordon 21 
9 G4 Oxford Jordon 25 
10 G5 Lexington Jordon 12 
11 Gi Memphis Peter 10 
12 G Oxford Peter 6 
13 G3 Lexington Peter 22 
14 G4 Oxford Peter 9 
15 G5 Lexington Peter 12 


上 述 字段 名 称 “variable” 和 “value” 均 是 默认 的 ,下 列 实例 将 更 改 这 个 默认 名 称 。 
实例 ch15_71 : 重新 设计 实例 ch15_70， 将 balls 对 象 由 宽 格 式 转 成 长 格式 ， 同 时 将 “variable” 字 
段 名称 改 成 “name”"， 将 “value” 改 成 "points" 。 


> lballs3 <- melt(balls, id.vars = c("game", "site"), variable.name = 
"name", value.name - "points") 


> lballs3 
game site 
1 G1 Memphis 


2 G2 Oxford 


name points 


Lin 
Lin 


15 
6 
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G3 Lexington Lin 
G4 Oxford Lin 
G5 Lexington Lin 
G1 Memphis Jordon 
G2 Oxford Jordon 
G3 Lexington Jordon 
G4 Oxford Jordon 
G5 Lexington Jordon 
G1 Memphis Peter 
G2 Oxford Peter 
G3 Lexington Peter 
G4 Oxford Peter 
G5 Lexington Peter 


26 
22 
18 
18 
32 
21 
25 
12 
10 

6 
22 

9 
12 


15-12-4 将 长 格式 数据 转 成 宽 格式 数据 dcast O 函数 


在 reshape2 扩展 包 中 ， 
BET deast O 函数 可 以 执行 此 任务 ， 


下 所 示 。 


将 长 格式 数据 转 成 宽 格式 数据 被 称 为 重 铸 ( Cast )，reshape2 扩展 包 提 


这 个 函数 是 用 于 数据 框 ( Data Frame ) 数据 的 ， 其 使 用 格式 如 


dcast ( data, formula, fun.aggregate = NULL, … ) 


口 data 


: 长 格式 对 象 。 


口 formula : 这 个 公式 将 指示 如 何 重 铸 数 据 。 
口 fun.aggregate : 利用 公式 执行 数据 重组 时 所 使 用 的 计算 函数 ， 常 用 的 计算 函数 有 sum () 和 


mean ()。 


Q 


reshape2 扩展 包 提 供 了 acast () 函数 ， 适 用 于 三 维 或 多 维 数 组 (array) 数据 ， 将 长 格式 转 


换 成 宽 格式 。 


实例 ch15_72 : 将 实例 ch15_69 所 建 的 长 格式 lballs 对 象 ， 重 铸 为 balls 宽 格 式 对 象 。 


> dcast(lballs, game + site ~ variable, sum) 


game 


Y mwnNP 


G1 Memphis 15 
G2 Oxford 6 
63 Lexington 26 
G4 Oxford 22 
G5 Lexington 18 


18 


site Lin Jordon Peter 


10 


由 上 述 执行 结果 可 以 看 到 ， 我 们 还 原 了 原先 的 宽 格式 对 象 balls 的 内 容 了 。 在 上 述 deast () R 
数 中 ,第 2 个 参数 “game + site ~ variable”， 实 际 是 一 个 公式 (Formula )。 
“game” 和 “site” 是 字段 变量 ,在 lballs 对 象 的 “variable” 字 段 内 的 各 个 名 字 ， 将 成 为 宽 格 
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式 的 字段 。 
实例 ch15_73 : 将 实例 ch15_71 所 建 的 长 格式 lballs3 对 象 ， 重 铸 为 balls 宽 格 式 对 象 。 
> dcast(lballs3, game + site ~ name, sum) 


Using points as value column: use value.var to override. 
game site Lin Jordon Peter 


1 G1 Memphis 15 18 10 
2 G Oxford 6 32 6 
3 G3 Lexington 26 21 22 
4 G4 Oxford 22 25 9 
5 G5 Lexington 18 12 12 
> 


由 于 lballs3 对 象 的 第 3 个 字段 是 “name”， 所 以 上 述 公 式 有 一 点 差别 ， 如 下 所 示 。 

game + site ~ name 

其 实 利 用 长 格式 对 象 的 重 铸 过 程 ， 有 时 也 可 以 得 到 一 些 特别 的 数据 表 ， 这 些 数据 表 类 似 
于 电子 表格 (Spreadsheet ) 的 数据 透视 表 (Pivot Table), R 语言 程序 设计 师 又 将 此 工作 称 重 塑 
( Reshape )， 下 面 将 以 实例 解说 。 
实例 ch15_74 : 建立 数据 透视 表 ， 这 个 表 着 重 列 出 球员 在 各 场地 得 分 的 总 计 。 

> dcast(lballs3, name ~ site, sum) 


Using points as value column: use value.var to override. 
name Lexington Memphis Oxford 


1 Lin 44 15 28 
2 Jordon 33 18 57 
3 Peter 34 10 15 


- 


实例 cht5 75 : 建立 数据 透视 表 ， 这 个 表 着 重 列 出 球员 在 各 场地 的 平均 得 分 。 


> dcast(lballs3, name ~ site, mean) 
Using points as value column: use value.var to override. 
name Lexington Memphis Oxford 


1 Lin 22.0 15 14.0 
2 Jordon 16.5 18 28.5 
3 Peter 17.0 10 7.5 


> 


实例 ch15_76 : 建立 数据 透视 表 ， 这 个 表 着 重 列 出 球员 在 各 场地 的 平均 得 分 ， 和 前 一 个 实例 不 同 
的 是 字段 名 称 和 行 名 称 对 调 ， 相 当 于 转 置 和 矩阵 的 效果 。 


> dcast(lballs3, site ~ name, mean) 

Using points as value column: use value.var to override. 
site Lin Jordon Peter 

1 Lexington 22 16.5 17.0 

2 Memphis 15 18.0 10.0 

3 Oxford 14 28.5 7.5 

- 
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由 上 述 一 系列 实例 可 知 ， 基 本 上 所 建 的 数据 透视 表 的 变量 字段 是 由 “+” 连 接 的 ， 而 每 个 维度 
是 用 “~” 隔 开 的 ， 如 果 有 两 个 或 更 多 个 “~” 符 号 出 现在 公式 ， 则 表示 所 处 理 的 数据 是 三 维 或 多 
维 数组 ( Array )。 
实例 ch15_77 : 建立 数据 透视 表 ， 这 个 表 着 重 列 出 球员 在 所 有 场地 以 及 所 有 场次 的 得 分 。 


> dcast(lballs3, site + name ~ game, sum) 

Using points as value column: use value.var to override. 
site name G1 G2 G3 G4 GS 

1 Lexington Lin 0 026 018 

2 Lexington Jordon 0 

3 Lexington Peter 0 

Memphis Lin 15 

Memphis Jordon 18 

Memphis Peter 

Oxford Lin 

Oxford Jordon 

Oxford Peter 


oNoscsocc 


vooxous 
coos 
65o6ccehh 
ocUNecsocc 
aeaeeeeRNk 


上 述 执行 结果 列 出 了 所 有 场次 与 所 有 场地 对 应 关系 的 和 矩阵， 上述 会 有 数据 为 0， 是 因为 相对 
应 的 场次 不 在 该 球场 比赛 ， 所 以 数据 填 0。 


CHAPTER 15 数据 分 析 与 处 理 


本 章 习 题 


一 、 判 断 题 


( 


.使 用 sample O 函数 执行 随机 抽样 时 ， 参 数 replace 如 果 是 TRUE ， 则 代表 抽 完 一 个 样 


本 这 个 样本 需 放 回去 ， 供 下 次 抽取 。 


. seed () 函数 的 参数 可 以 是 一 个 数字 ， 当 设 定 种 子 值 后 ， 在 相同 种 子 值 后 面 的 sample O 


所 产生 的 随机 数 序列 将 相同 。 





. 如 果 在 取样 时 ,希望 某 些 样本 有 较 高 的 概率 被 抽 中 ， 可 更 改 比 重 ( Weights )。 下 列 命 


令 将 造成 ,“1” 出 现 的 概率 最 高 。 

> sample(1:6, 12, replace = TRUE, c(3, 1, 1, 1, 2, 4)) 

下 列 命令 是 抽取 islands 对 象 中 ， 排 除 索 引 为 21 至 48 的 数据 。 
> islands[-(21:48)] 


. dris 对 象 是 一 个 数据 框 数据 ， 如 下 所 示 。 


> str(iris) 

'data.frame': 150 obs. of 5 variables: 

$ Sepal.Length: num 5.1 4.9 4.7 4.65 5.4 4.65 4.4 4.9 ... 

$ Sepal.Width : num 3.5 3 3.2 3.13.6 3.9 3.4 3.4 2.9 3.1 ... 

$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ... 
$ Petal.Width : num 90.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ... 
$ Species : Factor w/ 3 levels "setosa","versicolor",..: 11 
11111111.. 


使 用 下 列 方式 抽取 数据 时 ， 将 造成 x 对 象 是 向 量 数 据 。 

> x <- iris[, "Petal.Length", drop = FALSE] 

identical () 这 个 函数 的 基本 作用 是 测试 2 个 对 象 是 否 完全 相同 ， 如 果 完 全 相同 将 返回 
TRUE, (iik FALSE. 


. with O 在 字段 运算 时 可 以 省 略 对 象 名 称 和 “$$” 符 号， 另外， 此 函数 用 于 字段 运算 


时 ， 可 将 运算 结果 放 在 相同 对 象 的 新 建 字段 中 。 


. 假设 用 如 下 方式 调用 merge () 函数 。 


> merge(A, B) 
由 上 述 命令 可 判断 它 是 交集 (AND ) 的 合并 。 
假设 用 如 下 方式 调用 merge () 函数 


> merge(A, B, all = TRUE) 


由 上 述 命令 可 判断 它 是 并 集 ( OR ) 的 合并 。 
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C ) 10. 有 时 候 我 们 可 能 会 想 要 将 部 分 字段 在 排序 时 使 用 升序 排列 ， 部 分 字段 使 用 递减 排序 ， 
此 时 可 以 使 用 xtfrm () 函数 。 
C 2) 11. 有 一 如 下 数据 。 


game site variable value 
G1 Memphis Lin 15 
G2 Oxford Lin 6 
G3 Lexington Lin 26 
G4 — Oxford Lin 22 
G5 Lexington Lin 18 


G1 Memphis Jordon 18 
G2 Oxford Jordon 32 
G3 Lexington Jordon 21 
G4 Oxford Jordon 25 
G5 Lexington Jordon 12 
G1 Memphis Peter 10 
G2 Oxford Peter 6 
13 G3 Lexington Peter 22 
14 G4 Oxford Peter 9 
15 G5 Lexington Peter 12 


通常 我 们 将 上 述 数 据 的 表达 方式 ， 称 为 长 格式 (Long Format ) 数据 表 。 


局 NouwPwNb. 
"s 


二 、 单 选 题 

C ) 1.，%in% 的 功能 类 似 于 以 下 哪 一 个 函数 ? 
A. within () B. identical () C. match () D. merge () 

(22. 以 下 哪 一 个 函数 将 返回 原 对 象 的 每 一 个 元 素 在 所 排序 列 中 的 位 置 ( 索引 值 )? 
A. order () B. sort () C. rev O D. rank () 


(3. FAJUL—^4- sample O 函数 在 设计 时 ， 将 出 现 5 的 比重 设计 得 最 高 ? 
A. > sample(1:6, 12, replace = TRUE, c(6, 1, 1, 1, 2, 4)) 
B. » sample(1:6, 12) 
C. » sample(1:6, 12, replace - TRUE) 
D. > sample(1:6, 12, replace = TRUE, c(1, 2, 3, 4, 5, 1)) 
( ， ) 4 有 如 下 命令 ， 其 执行 结果 为 何 ? 
> duplicated(c(1, 1, 1, 2, 25) 
A. [1] FALSE TRUE TRUE FALSE TRUE 
B. [1] FALSE TRUE FALSE TRUE TRUE 
C. [1] FALSE FALSE TRUE TRUE TRUE 
D. [uj FALSE FALSE TRUE TRUE TRUE 
( ”) 5.， 有 如 下 命令 ,其 执行 结果 为 何 ? 
> which(duplicated(c(1, 1, 1, 2, 2))) 
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A.[1134 5 B. [1] 3 4 C. E1235 D. [1] 2 4 
下 列 哪 一 个 函数 可 以 将 数据 等 量 切割 ? 
A. cut () B. melt () C. decast () D. table () 


使 用 merge () 函数 时 若 加 以 下 哪个 参数 ， 则 代表 所 有 x 对 象 数据 均 在 这 个 合并 结果 
内 ， 在 合并 结果 中 原 属 于 y 对 象 的 字段 ， 原 字段 不 存在 的 数据 将 以 NA 值 填充 ? 





A. all.x FALSE B. all.y = FALSE 
C. all.x TRUE D. all.y = TRUE 

) 8， 将 宽 格 式 (Wide Format ) 数据 转 成 长 格式 ( Long Format ) 数据 称 融 化 ， 可 以 使 用 以 下 哪 

一 个 函数 ? 
A. match () B. melt () C. dcast () D. aggregate () 
三 、 多 选 题 

) 1 有 一 个 iris 对 象 ， 其 前 6 个 行 数据 如 下 所 示 ， 下 列 哪些 程序 片段 可 以 删除 重复 数据 ， 
并 将 结果 存在 x 对 象 中 ? ( 选择 两 项 ) 
> head(iris) 

Sepal.Length Sepal.Width Petal.Length Petal.Width Species 

1 5.1 3.5 1.4 0.2 setosa 
2 4.9 3.0 1.4 0.2 setosa 
3 4.7 3.2 2:3 0.2 setosa 
4 4.6 2.4 15 0.2 setosa 
5 5.0 3.6 1.4 0.2 setosa 
6 5.4 3.9 1.7 9.4 setosa 


A. > i <- which(duplicated(iris)) 
> x <- iris[-i, ] 


B. > i <- whichCduplicatedCiris)) 
> x <- i[-iris, ] 


C. > x <- iris[duplicated(iris), ] 
D. > x <- iris[!duplicated(iris), ] 


E. > x <- iris[, !duplicated((iris))] 
有 一 个 airquality 对 象 ， 其 前 6 个 行 数据 如 下 所 示 ， 下 列 哪些 程序 片段 可 以 删除 含 NA 
的 数据 ， 并 将 结果 存在 x 对 象 中 ? ( 选择 两 项 ) 


> head(airquality) 

Ozone Solar.R Wind Temp Month Day 
1 41 190 7.4 67 5.1 
2 36 118 8.0 72 s. 2 
3 12 149 12.6 74 L- r 
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四 、 


mJ. m go» 
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18 31311.5 62 5 4 
NA NA 14.3 56 5 5 
28 NA 14.9 66 5 6 


» X «- airquality[, complete.cases(airquality)] 
» X «- airquality[complete.cases(airquality), ] 
» X «- na.omit(airquality) 


» X «- airquality(na.omit) 


= J NWÈ ous 


> X <- na.omit(complete.cases(airquality)) 


实际 操作 题 ( 如 果 题 目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 

请 重新 设计 实例 ch13_1.R， 利 用 sample O 函数 , 在 10( 含 ) 和 100 ( 含 ) H, 自行 产生 30 

天 动物 的 出 现 次 数 。 

请 利用 R 语言 ， 设 计 一 个 比 大 小 的 程序 ， 程 序 执行 初 可 先 设 定 计算 机 赢 的 概率 ， 其 他 接口 与 

细节 ， 可 自由 发 挥 。 

请 设计 仍 子 游戏 ， 每 次 出 现 3 组 1 ~ 6 间 的 数字 , 每 次 结束 时 询问 是 否 再 玩 一 次 。 

请 计算 iris 对 象 花 为 以 及 花 葛 length / width 的 平均 值 。 

请 将 islands 对 象 按 面积 大 小 分 成 10 等 份 。 

重新 设计 实例 ch15_42.R， 合 并 符合 人 口 数 少 于 500 万 人 的 州 并 且 月 收入 少 于 5000 美元 的 州 。 

重新 设计 实例 ch15_43.R， 合 并 只 要 符合 人 口 数 少 于 500 万 人 的 州 和 月 收入 少 于 5000 美元 的 

州 其 中 一 个 条 件 的 州 。 

请 参考 本 章 15-10 节 ， 计 算 不 同 汽缸 数 车 辆 的 平均 马力 (hp, horse power )。 

请 参考 本 章 15-12 节 ， 自 行 建立 班 上 5 位 篮球 队员 主力 ， 到 各 处 比赛 的 数据 ， 可 自行 建立 比 

赛场 地 以 及 得 分 数据 ， 请 制作 长 格式 数据 与 宽 格式 数据 ， 同 时 建立 下 列 数据 透视 表 。 

(1 ) 参考 实例 ch15_74， 建 立 数据 透视 表 ， 这 个 表 着 重 列 出 球员 在 各 场地 的 得 分 总 计 。 

(2) 参考 实例 ch15_77， 建 立 数据 透视 表 ， 这 个 表 着 重 列 出 球员 在 所 有 场地 以 及 所 有 场次 的 
得 分 。 


CHAPTER 





之 前 的 准备 工作 

了 解数 据 的 唯一 值 

基础 统计 知识 与 R 语言 

使 用 基本 图 表 认 识 数据 

认识 数据 汇总 函数 summary () 
绘制 箱 形 图 

数据 的 相关 性 分 析 

使 用 表格 进行 数据 分 析 
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之 前 的 15 章 ， 笔 者 完整 地 介绍 了 R 语言 的 知识 ， 接 下 来 的 章节 笔者 将 介绍 如 何 使 用 R 语言 
制作 简单 的 图 表 ， 以 及 执行 有 关 统计 方面 的 基本 应 用 。 


EE 之 前 的 准备 工作 


本 章 笔者 将 使 用 几 个 R 语言 系统 内 建 的 函数 ， 或 扩展 包 的 数据 解说 。 


16-1-1 下 载 MASS 扩展 包 与 crabs 对 象 


本 节 笔 者 将 介绍 crabs 对 象 ， 这 个 对 象 是 在 MASS 扩展 包 内 ， 可 以 使 用 下 列 命令 安装 和 加 载 。 

install.packages ( "MASS" ) 

library ( MASS ) 

crabs 数据 框 是 澳洲 收集 的 公 、 母 〈 参 杂 蓝 、 橘 2 色 ) 各 100 只 螃蟹 共计 200 只 的 测量 数据 ， 
下 列 是 其 数据 框 内 容 


> str(crabs) 

'data.frame': 200 obs. of 8 variables: 

$ sp  : Factor w/ 2 levels "B","0": 11 11 Ego 

$ sex : Factor w/ 2 levels "F","M": 2222222222... 
$ index: int 12345678910 ... 

$FL :num 8.1 8.8 9.2 9,6 9.8 10.8 11.1 11.6 11.8 11.8 ... 
S RW : num 6.7 7.7 7.8 7.9 89 9.9 9.19.6 10.5 ... 

$C :num 16.1 18.1 19 20.1 20.3 23 23.8 24.5 24.2 25.2 ... 
$ CN num 19 20.8 22.4 23.1 23 26.5 27.1 28.4 27.8 29.3 ... 
$ BD num 7 7.4 7.7 8.2 8.2 9.8 9.8 10.4 9.7 10.3 ... 

> 


下 列 是 前 6 个 行 数据 的 内 容 。 


sex index FL RW CL CW BD 

1 8.1 6.7 16.1 19.0 7.0 
M 2 8.87.7 18.1 20.8 7.4 
M 3 9.2 7.8 19.0 22.4 7.7 
M 4 9.6 7.9 20.1 23.1 8.2 
M 5 9.8 8.0 20.3 23.0 8.2 
M 6 10.8 9.0 23.0 26.5 9.8 


vousumwe 


其 中 sex 字段 是 公 母 ，CL JEESSETBZSICER, CW 是 螃蟹 甲壳 宽度 。 


16-1-2 ”准备 与 调整 系统 内 建 state 相关 对 象 


在 真实 的 大 数据 数据 库 中 ,所 有 数据 均 是 储存 在 一 份 大 文件 内 ,坦白 说 原始 数据 笔者 看 了 也 
是 头痛 ,通常 这 类 的 文件 须 经 过 多 次 处 理 才 可 以 成 为 我 们 所 要 的 文件 ， 本 小 节 所 介绍 的 处 理 文件 
的 方式 其 实 只 是 小 小 的 一 部 分 工作 。 在 之 前 章节 中 ， 我 们 已 经 多 次 使 用 state.x77 和 state.region 数 
据 集 了 ， 本 小 节 我 们 将 把 它们 转换 成 我 们 想 要 的 文件 。 
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实例 ch16_1 : 建立 一 个 向 量 state.popu， 这 个 向 量 包含 state.x77 内 的 Population 字段 (在 第 1 个 字 
段 )， 建 好 后 删除 向 量 元 素 的 名 称 。 


> state.popu <- state.x77[, 1] # 取 得 人 口 数 数据 
> head(state.popu) MULA DG 
Alabama Alaska Arizona Arkansas California Colorado 
3615 365 2212 2110 21198 2541 
» names(state.popu) «- NULL TRIS ETC RER 
» head(state.popu) FREAR 


[1] 3615 365 2212 2110 21198 2541 
> 


上 述 向 量 建立 好 后 ， 接 下 来 将 建立 数据 框 数据 。 
实例 ch16_2 : 建立 一 个 数据 框 stateUSA ， 这 个 数据 框 包含 以 下 4 个 向 量 。 


state.name : 美国 各 州 州 名 ( 系统 内 建 )。 
state.popu : 美国 各 州 人 口 数 ( 前 一 实例 所 建 )。 
state.area : 美国 各 州 面积 ( 系统 内 建 )。 
state.region : 美国 各 州 所 属 区 域 ( 系统 内 建 )。 


> stateUSA «- data.frame(state.name, state.popu, state.area, state.region) 
» head(stateUSA) 
state.name state.popu state.area state.region 





1 Alabama 3615 51609 South 
2 Alaska 365 589757 West 
3 Arizona 2212 113909 West 
4 Arkansas 2110 53104 South 
5 California 21198 158693 West 
6 Colorado 2541 104247 West 


上 述 字段 名 有 点 长 ， 下 列 实例 将 予以 简化 。 
实例 ch16 3 : 将 stateUSA 数据 框 的 字段 名 分 别 简化 为 ,“name”“popu” "area" FI "region". 


> names(stateUSA) «- c("name", "popu", "area", "region") 
» head(stateUSA) # 验 证 结果 
name popu area region 
Alabama 3615 51609 South 
Alaska 365 589757 West 
Arizona 2212 113909 West 
4 Arkansas 2110 53104 South 
5 California 21198 158693 West 
6 Colorado 2541 104247 West 
» str(stateUSA) 
'data.frame': 50 obs. of 4 variables: 
$ name : Factor w/ 50 levels "Alabama","Alaska",..: 1234 56 7 8 9 10 ... 
$ popu : num 3615 365 2212 2110 21198 ... 
$ area : num 51609 589757 113909 53104 158693 ... 
$ region: Factor w/ 4 levels "Northeast","South",..: 2442441222 ... 
> 


UN 
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16-1-3 ”准备 mtcars 对 象 


前 一 章 已 介绍 过 mtcars 数据 集 是 各 种 汽车 发 动机 的 数据 集 了 ， 在 继续 下 一 节 内 容 前 ， 笔 者 将 
依据 上 述 数据 建立 一 个 新 的 数据 框 对 象 。 
实例 ch16_4 : 建立 mycar 对 象 ， 这 个 对 象 包含 原 mtcars 对 象 的 4 个 字段 ， 第 1 个 字段 是 每 加 仑 汽 
油 可 行驶 的 距离 ( mpg 单位 是 英里 ， 这 是 原 对 象 的 第 1 个 字段 )， 第 2 个 字段 是 汽缸 数 ( cyl， 这 是 
原 对 象 的 第 2 个 字段 )， 第 3 个 字段 是 自 排 或 手 排 (am，0 表示 自 排 ，!1 表示 手 排 ， 这 是 原 对 象 的 
第 9 个 字段 )， 第 4 个 字段 是 挡 位 数 ( gear， 这 是 原 对 象 的 第 10 个 字段 )。 


> mycar «- mtcars[c(1, 2, 9, 10)] 


» head(mycar) # 验 证 
mpg cyl am gear 

Mazda RX4 21.0 6 1 4 

Mazda RX4 Wag Z6 61 4 

Datsun 710 22.8 4 1 4 

Hornet 4 Drive 21.4 6 0 3 

Hornet Sportabout 18.7 8 0 3 

Valiant 181 6 0 3 


由 上 述 执行 结果 可 知 ， 我 们 已 经 成 功 地 建立 mycar 对 象 了 。 
实例 ch16_5 : 将 mycar 对 象 的 am 字段 的 向 量 改 成 因子 ， 同 时 以 0 表示 自 排 ，! 表示 手 排 。 


> mycar$am <- factor(mycar$am, labels = c("Auto", "Manual")) 

» str(mycar) 

'data.frame': 32 obs. of 4 variables: 

$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ... 

$ cyl : num 6646868446... 

$ am : Factor w/ 2 levels "Auto","Manudl": 2221111111... 
$ gear: num 4443333444 ... 
> 


下 列 是 查询 验证 前 6 个 行 数据 的 结果 。 


> head(mycar) 
mpg cyl am gear 


Mazda RX4 21.0 6 Manual 
Mazda RX4 Wag 21.0 6 Manual 
Datsun 710 22.8 4 Manual 


Hornet 4 Drive 21.4 6 Auto 
Hornet Sportabout 18.7 8 Auto 
Valiant 18.1 6 Auto 
> 


www s e 


LA 了 解数 据 的 唯一 值 


对 于 某 些 数据 框 的 变量 字段 的 数据 元 素 而 言 ， 到 底 是 以 数值 呈现 还 是 以 因子 (Factor) 呈现 较 
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佳 ， 完 全 视 所 需要 分 析 的 数据 类 型 而 定 ， 基 本 原则 是 若 数据 可 以 当 作 分 类 数据 ， 则 可 以 考虑 改 成 
因子 。 另 外 ， 也 可 以 由 数据 的 唯一 值 的 计数 判断 ， 一 般若 是 计数 值 少 的 字段 也 适合 改 成 因子 。 要 
作 这 个 分 析 之 前 ， 我 们 可 以 先 了 解数 据 框 内 每 一 个 变量 字段 的 数据 元 素 的 个 数 。 
实例 ch16_6 : 了 解 mycar 对 象 各 字段 数据 唯一 值 的 计数 ( counter )。 

> sapply(mycar, function(x) length(uniqueGO)) 

mpg cyl am gear 


25 3 2 3 
> 


由 上 述 数 据 可 知 ， 尽 管 在 实例 ch16 5 中 笔者 只 将 am 字段 改 成 了 因子 ， 但 是 cyl 和 gear 字段 
其 实 也 适合 改 成 因子 。 例 如 ， 由 上 述 数 据 我 们 可 以 直接 求 得 自 排 (Auto) EHE (Manual) 车 的 
平均 油耗 ( 每 加 仑 可 跑 多 少 距离 )。 若 是 我 们 将 cyl 字段 改 成 因子 ， 则 可 计算 每 种 汽缸 数 的 车 的 平 
均 油 耗 ( 每 加 仑 可 跑 多 少 距离 )。 若 是 我 们 将 gear 字段 改 成 因子 ， 则 可 计算 每 种 汽车 挡 位 数 的 车 
的 平均 油耗 ( 每 加 仑 可 跑 多 少 距离 )。 但 若是 将 mpg 字段 改 成 因子 ， 则 看 不 出 有 多 少 意义 。 


(ee 基础 统计 知识 与 R 语言 


坦白 说 R 语言 的 诞生 ， 主 要 是 供 统 计 学 者 作 资 料 分 析 之 用 ， 其 实 如 果 各 位 到 书局 或 图 书馆 参 
考 R 语言 书籍 时 应 可 发 现 这 个 事实 ， 因 为 大 多 数 的 R 语言 书籍 中 真正 介绍 R 语言 内 涵 的 内 容 并 不 
多 ， 大 多 数 是 只 用 一 点 内 容 讲解 R， 然 后 就 直接 讲解 R 在 各 种 大 数据 类 别 的 统计 分 析 与 应 用 。 笔 
者 在 撰写 此 书 时 ， 决 定 花 许多 篇 幅 介 绍 R 语言 ， 为 的 是 希望 读者 能 在 完全 了 解 R 语言 后 ， 才 进入 统 
计 领 域 的 主题 ,但 是 笔者 将 尽量 淡化 统计 专 有 名 词 ， 尽 量 以 非 统 计 学 生 也 容易 懂 的 语言 解说 。 该 是 
IET. 本 节 的 各 小 节 ， 笔 者 会 将 统计 学 的 相关 基础 名 词 ， 用 R 语言 呈现 ， 同 时 用 本 章 的 16-175 
的 数据 解说 。 

单一 的 数值 数据 ， 对 我 们 而 言 其 参考 价值 并 不 是 太 高 ， 但 对 于 大 量 的 数据 集 ， 则 是 数据 分 析 
师 ( Data Analyst) 或 大 数据 工程 师 ( Big Data Engineer ) 感 兴趣 的 主题 ， 对 于 大 量 的 数据 集 我 们 
多 会 研究 两 个 基本 性 质 ， 一 个 是 集中 趋势 ( Central Tendency )， 另 一 个 是 离散 程度 ( Variability 或 


Dispersion )。 


16-3-1 数据 的 集中 趋势 


通常 数据 会 群 聚 在 中 位 数 附近 ， 这 样 的 模式 就 被 称 为 集中 趋势 ， 也 可 以 看 作 是 数据 的 中 心 代 
表 。 常 被 用 来 测量 集中 趋势 的 方法 有 以 下 3 种 。 

1. 平 均 数 ( Mean ) 

2. 中 位 数 ( Median ) 

3. 众 数 ( Mode ) 
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16-3-1-1 认识 统计 学 名 词 一 一 平均 数 


所 谓 的 平均 数 ( Mean) 是 指 在 一 个 数据 集中 ， 所 有 观察 值 的 总 和 除 以 观察 值 总 个 数 所 得 的 
数值 。 

在 系列 的 数值 数据 中 ， 你 可 能 关心 的 是 平均 值 是 多 少 。 例 如 ， 在 一 次 考试 中 你 考 了 75 分 ， 这 
对 于 你 是 一 个 参考 而 已 ， 如 果 你 知道 平均 数 是 95， 可 能 你 是 伤心 的 ， 因 为 低 于 平均 数 太 多 了 , 但 
如 果 你 知道 平均 数 是 50， 可 能 你 会 高 兴 ， 因 为 你 知道 你 高 于 平均 数 很 多 。 所 以 平均 数 对 于 系列 数 
据 而 言 是 一 个 非常 好 的 参考 数据 。 在 R 语言 内 ， 可 以 使 用 mean O 函数 获得 平均 数 。 
实例 ch16_7 : 使 用 crabs 对 象 计算 澳洲 螃 扎 甲壳 宽度 的 平均 值 。 


> meanCcrabs$CW) 
[1] 36.4145 
> 


有 了 上 述 数 据 ， 下 回 吃 澳洲 暑 艇 时 即 可 了 解 所 吃 螃 蟹 的 等 级 了 。 
实例 ch16_8 : 使 用 mycar 对 象 计算 所 有 汽车 的 平均 耗 油 量 。 


> mean(mycar$mpg) 
[1] 20.09062 
> 


实例 ch16_9 : 使 用 stateUSA 对 象 计算 美国 每 州 的 平均 人 口 数 。 


> mean(stateUSA$popu) 
[1] 4246.42 
> 


其 实 使 用 数据 作 数 据 分 析 ， 也 是 要 小 心 ， 因 为 有 些 数据 是 无 意义 的 ， 例 如 ， 我 们 用 mycar 对 
象 计算 汽车 的 平均 挡 位 数 或 汽缸 数 所 得 的 结果 则 是 较 无 意义 的 参考 值 。 


16-3-1-2 认识 统计 学 名 词 一 一 中 位 数 


所 谓 的 中 位 数 ( Median ) 是 指 在 一 组 可 排序 的 数据 中 ， 将 数据 切 成 下 50% 及 上 50% 的 值 (或 
是 最 中 间 的 值 ) 即 为 中 位 数 ， 也 就 是 将 数据 排序 以 后 恰好 有 一 半 的 数据 大 于 ， 也 恰 有 一 半 的 数据 
小 于 等 于 中 位 数 。 简 单 说 如 果 数 据 量 是 奇数 ， 最 中 间 的 数字 就 是 中 位 数 。 如 果 数 据 量 是 偶数 ， 则 
最 中 间 的 两 个 数字 的 平均 值 就 是 中 位 数 。 在 R 语言 内 ， 可 以 使 用 median O 函数 获得 中 位 数 。 下 
列 是 用 Median O 求 中 位 数 的 测试 结果 。 


> X «- c(100, 7, 12, 6) 

» median(x) 

[1] 9.5 

» X «- c(100, 7, 8, 9, 10) 
» median(x) 

[1] 9 


> 


上 述 第 一 个 测试 实例 有 4 个 数据 ， 所 以 排序 后 最 中 间 的 两 个 数字 分 别 是 7 和 12， 取 平均 ， 所 
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以 中 位 数 是 9.5。 第 二 个 测试 实例 有 5 个 数据 ， 所 以 排序 后 最 中 间 的 数字 就 是 中 位 数 ， 此 例 是 9。 
如 果 参 考 本 章 的 1623-1 节 计 算 mycar 对 象 汽车 挡 位 的 平均 数 ， 得 到 的 结果 如 下 所 示 。 
> mean(mycar$gear) 
[1] 3.6875 


我 们 获得 了 mycar 对 象 汽车 挡 位 的 平均 数 是 3.6875， 其 实 这 是 一 个 无 意义 的 值 。 但 如 果 我 们 
想 了 解 mycar 对 象 汽车 挡 位 的 中 位 数 ， 那 就 有 意义 了 。 
实例 ch16_10 : 使 用 mycar 对 象 ， 求 汽车 挡 位 的 中 位 数 。 

> median(mycar$gear) 

[1] 4 


实例 ch16_11 : 使 用 crabs 对 象 计算 澳洲 螃蟹 甲壳 宽度 的 中 位 数 。 
> median(crabs$CW) 


[1] 36.8 
> 


实例 ch16_12 : 使 用 stateUSA 对 象 计算 美国 每 州 人 口 数 的 中 位 数 。 


> median(stateUSA$popu) 
[1] 2838.5 
> 


16-3-1-3 : 认识 统计 学 名 词 一 一 众 数 

所 谓 的 众 数 ( Mode ) 是 指 在 数据 集中 ， 出 现 次 数 最 多 的 值 。 需 特别 注意 的 是 ， 这 并 不 是 指 
数据 的 中 心 ， 我 们 可 能 面 对 有 序数 据 与 无 序数 据 ， 对 于 无 序数 据 而 言 ， 也 就 没有 所 谓 的 数据 的 中 
心 。 其 实 众 数 一 般 最 常用 在 列 出 分 类 数据 中 最 常 出 现 的 值 ， 对 于 R 语言 而 言 ， 因 子 最 适合 应 用 在 
求 众 数 ， 可 惜 R 语 言 目前 没有 求 众 数 的 函数 , 但 可 以 用 其 他 方法 求 得 。 

有 关 众 数 的 实例 解说 ， 笔 者 将 在 讲解 更 多 统计 学 名 词 及 概念 后 作 一 系列 实例 说 明 。 


16-3-2 数据 的 离散 程度 


单一 数据 的 价值 不 高 ， 但 对 于 大 量 数据 集 而 言 ， 了 解数 据 的 离散 程度 是 非常 重要 的 。 而 用 来 
衡量 离散 ( 变化 ) 程度 的 标准 有 标准 偏差 ( Standard Deviation )、 变 异 数 ( Variance )、 变 异 系数 
( Coefficient of Variation ), 4E ( Range )、 四 分 位 数 ( Quartile )、 百 分 位 数 ( Percentile )、 四 分 位 


FE ( Interquartile Range ), 等 等 。 
16-3-2-1 认识 统计 学 名 词 一 一 标准 偏差 、 变 异 数 


其 实 标准 偏差 ( Standard Deviation )、 变 异 数 ( Variance )、 变 异 系数 ( Coefficient of Variation ) 
均 是 用 来 了 解数 据 的 变化 性 的 ， 有 关 这 方面 的 真实 统计 定义 ,请 参考 统计 相关 的 书籍 。 在 R 语言 
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中 使 用 的 相关 函数 如 下 所 示 。 
O sd O : 标准 偏差 函数 。 


O var () : 变异 数 函 数 。 
实例 ch16_13 : 计算 crabs 对 象 ，BD ( 相当 于 螃蟹 身体 的 厚度 ) 字段 数据 的 标准 偏差 。 


> sd(crabs$BD) 
[1] 3.424772 
- 


实例 chí6 14 : 计算 crabs 对 象 ，BD ( 相当 于 螃蟹 身体 厚度 ) 字段 数据 的 变异 数 。 


> var(crabs$BD) 
[1] 11.72907 


> 


实例 ch16_15 : 计算 mycar 对 象 ，mpg 字段 数据 的 标准 偏差 。 


> sd(mycar$mpg) 
[1] 6.026948 
> 


实例 ch16_16 : 计算 mycar 对 象 ，mpg 字段 数据 的 变异 数 。 


> var(mycar$mpg) 
[1] 36.3241 
> 


16-3-2-2 ”认识 统计 学 名 词 一 一 全 距 


所 谓 全 距 ( Range ) 是 指数 据 集中 最 大 观察 值 减 掉 最 小 观察 值 所 得 的 数值 ， 实 际 上 可 想 成 数据 
的 范围 ， 本 书 第 4 章 4-2 节 曾 介绍 max. O 函数 可 求 得 最 大 值 ，min O 函数 可 求 得 最 小 值 ， 依 照 定 
义 最 大 值 减 去 最 小 值 的 所 得 值 即 为 全 距 。 事 实 上 语言 提供 了 range O 函数 ， 可 以 列 出 数据 的 最 
大 值 与 最 小 值 。 

实例 ch16_17 : 列 出 crabs X erp AE PESEE E E 


> rangeCcrabsSCW) 
[1] 17.1 54.6 
- 


实例 ch16. 18 : 列 出 stateUSA 对 象 中 各 州 的 人 口 数 范围 。 


> range(stateUSA$popu) 
[1] 365 21198 


实例 ch16. 19 : 列 出 mycar 对 象 中 每 加 仑 汽油 可 行驶 的 距离 范围 。 
> range(mycar$mpg) 
[1] 10.4 33.9 


> 
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16-3-2-3 认识 统计 学 名 词 一 一 四 分 位 数 


所 谓 的 四 分 位 数 (Quartile ) 是 指 将 数据 集 ( 由 小 到 大 排列 ) 分 成 4 等 份 的 3 个 数值 ， 其 中 第 
1 个 四 分 位 数 通常 为 第 25% 的 数值 ， 第 2 四 分 位 数 也 就 是 中 位 数 ( 通常 为 第 5096 的 数值 )， 而 第 3 
个 四 分 位 数 通 常 为 第 75% 的 数值 。 我 们 可 以 用 quantile () 函数 取得 这 些 值 。 我 们 可 以 通过 下 列 实 
例 是 观察 quantile () 函数 的 基本 操作 方法 。 


» X «- c(1, 3, 5, 11, 23, 33, 66, 99) 
» quantile(x) 
ex 25x Sex 75x 100% 
1.00 4.50 17.00 41.25 99.00 
> 


对 上 述 实例 而 言 ， 共 有 8 个 数据 ， 所 以 第 2 个 四 分 位 数 也 就 是 中 位 数 ， 序 位 的 计算 为 (8+1 ) 
/2=4.5， 也 就 是 第 4 个 数据 和 第 5 个 数据 的 平均 值 ， 得 到 结果 为 ( 11+23 ) /2=17 ; 第 1 个 四 分 位 
数 (也 就 是 25% ) 是 由 序 位 的 最 小 值 1 与 中 位 数 的 序 位 数 4.5 取 平均 得 到 其 序 位 数 ， 即 ( 1+4.5 ) 
/2=2.75， 再 由 第 2 个 数据 和 第 3 个 数据 取 内 插 求 得 ， 所 以 是 [340.75 x (5-3 ) ] 得 到 的 结果 是 
4.5。 相 类 似 的 第 3 个 四 分 位 数 ( 也 就 是 75% ) 是 由 序 位 的 最 大 值 8 与 中 位 数 的 4.5 取 平 均 得 到 其 
序 位 数 , 即 ( 8+4.5 ) /2=6.25, 再 由 第 6 个 数据 和 第 7 个 数据 取 内 插 求 得 , 所 以 是 [33+0.25 x (66- 
33) | 得 到 的 结果 是 41.25。 
实例 ch16_20 : 计算 stateUSA 对 象 中 各 州 的 人 口 数 的 四 分 位 数 。 


> quantile(stateUSA$popu) 
ex 25% 50% 75% 100% 
365.0 1079.5 2838.5 4968.5 21198.0 
> 


实例 ch16_21 : 计算 crabs X] p, WARM Ze BER VUA (DC 


> quantile(crabs$OW) 

0% 25% 50% 75% 100% 
17.1 31.5 36.8 42.0 54.6 
> 


实例 ch16_22 : 计算 mycar 对 象 中 每 加 仑 汽油 可 行驶 距离 的 四 分 位 数 。 
> quantile(mycar$mpg) 
ex 25x 50% 75% 100% 


10.400 15.425 19.200 22.800 33.900 
> 


16-3-2-4 认识 统计 学 名 词 一 一 百 分 位 数 

所 谓 的 百 分 位 数 ( Percentile ) 是 指 将 数据 C 由 小 到 大 排序 ) 等 分 为 100 份 的 数值 ， 我 们 一 样 
可 以 使 用 quantile O 函数 计算 此 百 分 位 数 ， 笔 者 将 直接 以 实例 解说 。 
实例 ch16_23 : 计算 crabs 对 象 中 螃蟹 甲壳 宽度 的 10% 和 9096 的 值 。 
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> quantile(crabs$OW, probs = c(0.1, 0.9)) 
10% 90x 

25.67 46.57 

> 


其 实 若 和 前 一 小 节 相 比 ， 我 们 会 发 现 两 者 用 的 是 同样 的 函数 ， 但 是 此 例 中 我 们 获得 的 是 指定 
的 百 分 位 数 ， 主 要 的 原因 是 前 一 小 节 的 实例 使 用 quantile O 函数 时 忽略 了 第 2 个 参数 “probs = …”， 
这 个 函数 将 直接 用 默认 值 处 理 ， 默 认 值 如 下 所 示 。 

probs = seq ( 0, 1,0.25 ) 

可 以 看 以 下 表达 式 。 

probs = e ( 0, 0.25, 0.5, 0.75, 1) 
实例 ch16_24 : 计算 stateUSA 对 象 中 各 州 的 人 口 数 10% 和 90% 的 值 。 


> quantile(stateUSA$popu, probs = c(0.1, 0.9)) 
10x 90% 
632.3 10781.2 
> 


实例 ch16_25 : 计算 mycar 对 象 中 每 加 仑 汽油 可 行驶 距离 10% 的 值 。 
> quantile(mycar$mpg, 0.1) 
10x 


14.34 
> 


如 果 只 想 列 出 一 个 特定 值 ， 则 可 以 省 略 “probs ="， 直 接 输入 值 ， 如 上 述 实例 16 25 所 述 。 


16-3-3 数据 的 统计 

当 我 们 有 了 前 两 个 小 节 的 知识 后 ， 接 下 来 我 们 将 执行 数据 的 统计 ， 当 有 了 数据 的 统计 数据 
后 ,我 们 将 对 整个 数据 有 一 些 基本 的 了 解 。 
16-3-3-1 计数 值 


计数 主要 是 应 用 在 数据 框 内 的 因子 ， 计 算 某 个 因子 元 素 的 数据 出 现 的 次 数 或 称 频率 。 我 们 
常用 table O 函数 执行 这 个 任务 ， 也 可 以 将 这 个 table O 函数 的 返回 结果 称 频率 表 (Frequency 
Table )。 
实例 ch16_26 : 使 用 stateUSA 对 象 ， 计 算 美 国 各 区 包括 州 的 实际 数量 。 





> table(stateUSA$region) 


Northeast South North Central West 
9 16 12 13 
> 


实例 ch16_27 : 使 用 crabs 对 象 ， 计 算 澳洲 公 或 母 螃蟹 的 实际 数量 。 
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> table(crabs$sex) 
F M 


100 100 
> 


实例 ch16_28 : 使 用 mycar 对 象 ， 计 算 自 排 (Auto ) 或 手 排 ( Manual ) 车 的 数量 。 
> table(mycar$am) 
Auto Manual 


19 13 
> 


16-3-3-2 Table 对 象 


在 前 一 小 节 中 ,我 们 使 用 table O 函数 产生 了 表格 数据 ， 到 底 这 个 表格 数据 是 属于 那 一 种 数 
据 对 象 ? 下 面 我 们 可 以 验证 。 


> regioninfo <- table(stateUSA$region) 


> regioninfo # 验 证 结果 
Northeast South North Central West 
9 16 12 13 
> class(regioninfo) YT BOJISEORA M 
[1] "table" 


由 上 述 执行 结果 可 知 我 们 有 了 新 的 数据 类 型 “表格 (Table 六 ， 这 个 结果 与 一 维 数组 (Array ) 相 
同 ， 对 于 数组 数据 而 言 ， 可 以 有 一 到 多 维 的 表格 ， 每 个 维度 的 表格 又 可 以 有 个 别 的 名 称 。 


16-3-3-3 计算 占 比 


有 了 计数 数据 后 ， 接 下 来 可 以 计算 各 个 因子 元 素数 据 的 占 比 。 计 算 占 比 很 容易 ， 只 要 将 计数 
值 除 以 总 数 即 可 。 
实例 ch16_29 : 使 用 stateUSA 对 象 ， 计 算 美 国 各 区 的 实际 州 数 的 占 比 。 

> regioninfo / sum(regioninfo) 


Northeast South North Central West 
0.18 0.32 0.24 0.26 
> 


实例 ch16_30 : 使 用 crabs 对 象 ， 计 算 澳 洲 公 或 母 螃蟹 的 占 比 。 


> crabsinfo <- table(crabs$sex) 
> crabsinfo / sum(crabsinfo) 


F M 
9.5 9.5 
> 
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实例 ch16_31 : 使 用 mycar 对 象 ， 计 算 自 排 (Auto) FHE ( Manual ) 车 的 占 比 。 


> carinfo <- table(mycar$am) 
> carinfo / sum(carinfo) 


Auto Manual 
9.59375 0.40625 
- 


16-3-3-4 再 看 众 数 


在 本 章 的 16-3-1-3 节 我 们 介绍 了 众 数 ( Mode )， 再 解释 一 遍 所 谓 众 数 是 指 在 分 类 数据 中 最 常 
出 现 的 值 ， 由 16-3-3-3 节 的 实例 可 知 以 下 信息 。 

stateUSA $ region 对 象 的 众 数 是 “South”。 

mycar $ am 对 象 的 众 数 是 “Manual”。 

crabs $ sex 对 象 的 众 数 是 “M” sk "FU. 

有 了 之 前 的 了 解 ， 现 在 我 们 可 以 直接 以 实例 说 明 众 数 了 。 
实例 ch16_32 : 计算 stateUSA $ region 对 象 的 众 数 。 


> index <- regioninfo 一 max(regioninfo) 


> index # 列 出 Index 逻辑 向 量 
Northeast South North Central West 
FALSE TRUE FALSE FALSE 
» names(regioninfo)[index] 
[1] "South" 


上 述 实例 的 第 2 行 ， 笔 者 故意 列 出 index 内 容 ， 重 点 是 希望 读者 了 解 执行 第 1 行 代码 后 ， 
index 的 内 容 。 
实例 ch16_32 : 计算 mycar $ am 对 象 的 众 数 。 


> index «- carinfo == max(carinfo) 
» index # 列 出 index 远 辑 向 量 


Auto Manual 

TRUE FALSE 
» names(carinfo)[index] 
[1] "Auto" 


在 前 面 几 小 节 ， 笔 者 一 直 用 3 个 对 象 解说 ， 本 节 笔 者 故意 先 忽略 crabs 对 象 ， 因 为 我 们 已 知 
螃蟹 共 200 只 ， 公 、 母 各 100 只 ， 那 么 它 的 众 数 到 底 是 什么 ? 看 以 下 实例 吧 ! 
实例 ch16_33 : 计算 crabs $ sex 对 象 的 众 数 。 


> index <- crabsinfo 一 max(crabsinfo) 
> index # 列 出 index 到 辑 向 量 
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TRUE TRUE 

> names(crabsinfo)[index] 
[1] "F" "M" 

> 


可 以 获得 公 或 母 均 是 众 数 ， 现 在 我 们 已 经 获得 结论 了 ， 众 数 不 是 唯一 的 ， 如 果 发 生出 现 次 数 
相同 的 情况 ， 则 这 些 元 素 都 将 是 众 数 。 


16-3-3-5 which.max () 函数 


其 时 R 语言 提供 了 一 个 函数 which.max ()， 可 以 求 得 对 象 的 最 大 值 ， 我 们 也 可 以 使 用 这 个 函 
数 的 最 大 值 求 得 众 数 。 
实例 ch16_34 : 使 用 which.max () 函数 计算 stateUSA $ region 对 象 的 众 数 。 


> which.max(regioninfo) 
South 

2 
> 


实例 ch16 35 : 使 用 which.max () 函数 计算 mycar $ am 对 象 的 众 数 。 


> which.max(carinfo) 
Auto 

1 
> 


由 上 述 结果 可 知 which.max O 函数 真 的 很 好 用 ， 那 为 什么 笔者 在 前 一 小 节 不 直接 使 用 呢 ? 最 
大 的 原因 是 ， 如 果 对 象 内 有 两 个 或 更 多 个 最 大 值 时 ，which.max O 函数 将 只 返回 第 1 个 数据 ， 可 
参考 下 列 实例 。 
实例 ch16_36 : 使 用 which.max () 函数 计算 crabs $ sex 对 象 的 众 数 。 


> which.max(crabsinfo) 
F 
1 
- 


理论 上 “F” 和 “M” 皆 是 100 只 , 但 只 返回 “F”， 所 以 这 个 函数 尽管 好 用 ， 但 使 用 上 仍 要 小 心 。 


使 用 基本 图 表 认 识 数据 


如 果 想 要 更 进一步 了 解数 据 ， 可 以 用 R 语言 提供 图 表 绘 制 功能 ， 这 将 是 本 节 的 重点 。 


16-4-1 绘制 直方 图 


直方 图 (Histogram ) 是 根据 数据 的 分 布 情况 ， 自 动 选择 有 利于 表现 数据 的 柱 宽 作 x 轴 间 隔 ， 
以 频数 ( 或 称 计数 ) 或 者 百分比 为 y 轴 的 将 一 系列 数据 连接 起 来 的 直方 图 。 直 方 图 的 优点 是 不 论 


331 


R 语言 一 一 迈 向 大 数据 之 路 


数据 样本 数量 的 多 寡 都 能 使 用 直方 图 。 


使 用 R 系统 绘制 数据 图 时 ， 若 使 用 PC 的 Windows 系统 则 可 以 在 数据 图 内 加 注 中 文字 ， 但 目 
前 在 数据 图 内 加 注 中 文字 的 功能 并 不 支持 Mac OS 系统 上 的 R。 本 书 有 些 数据 图 有 中 文 ， 那 
是 笔者 用 PC 的 Windows 系统 测试 的 结果 。 


实例 ch16_37 : 使 用 对 象 stateUSA $ popu 绘制 美国 各 州 人 口 数 的 直方 图 。 





> hist(stateUSA$popu, col = "Green") 
> 


Histogram of stateUSA$popu 


Frequency 
20 


10 








r T T T 1 
0 5000 10000 15000 20000 25000 


StateUSA$popu 


上 述 图 形 的 主 标题 、x 和 y 轴 标题 均 是 默认 的 ， 有 了 图 表 方 便 太 多 了 ， 数 据 也 更 清楚 了 ， 原 
来 美国 大 多 数 的 州 人 口 数 均 在 500 万 以 下 。 


16-4-1-1 设置 直方 图 的 标题 


其 实在 hist O 函数 中 ， 可 以 加 上 下 列 参数 。 
口 main : 图 表 标题 。 
口 xlab : x 轴 标 题 。 
口 ylab : y 轴 标 题 。 
如 果 R 是 在 Windows 系统 下 执行 ， 你 可 以 设置 中 文 标 题 ， 但 上 述 功能 目前 并 不 支持 在 Mac OS 
系统 下 执行 的 R 语言 。 
实例 ch16_38 : 使 用 对 象 crabs $ CW 绘制 澳洲 螃蟹 甲壳 宽度 的 直方 图 ， 直方 图 使 用 灰色 。 


> hist(crabs$OW, col =“Gray"，main = “Histogram of Crab", xlab = "Ca 
rapace width", ylab = "Counter") 
- 
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[执行 结果 ] 


Histogram of Crab 


Counter 


10 20 30 40 





0 





20 30 40 50 
Carapace width 
实例 ch16_39 : 使 用 对 象 mycar $ CW 绘制 汽车 油耗 的 直方 图 ， 直方 图 使 用 黄色 。 
> hist(mycar$mpg, col = "Yellow", main = "Histogram of MPG", xlab = 


"Mile per Gallon") 
天 


[执行 结果 ] 


Histogram of MPG 


Frequency 





10 15 20 25 30 35 


Mile per Gallon 


16-4-1-2 设置 直方 图 的 矩形 数 


在 hist O 函数 内 ， 可 以 直接 指定 直方 图 矩形 的 数量 。 
实例 ch16_40 : 使 用 对 象 mycar $ CW 绘制 汽车 油耗 的 直方 图 ， 直方 图 使 用 黄色 ， 直 接 指定 矩形 
的 数量 为 3。 

> hist(mycar$mpg, col = "Yellow", main = "Histogram of MPG", xlab = 


"Mile per Gallon", breaks - 3) 
> 
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[执行 结果 ] 


Histogram of MPG 


15 


10 


Frequency 








T —1 
35 40 


Mile per Gallon 


另外 ， 你 也 可 以 直接 使 用 breaks 参数 ， 设 定 和 矩形 的 区 间 。 
实例 ch16_41 : 重新 设计 实例 ch16_38， 使 用 对 象 crabs $ CW 绘制 澳洲 螃蟹 甲壳 宽度 的 直方 图 
直方 图 使 用 灰色 。 设 定 矩 形 的 区 间 为 15 ~ 25,25 ~ 35,35 ~ 45,45 ~ 55. 

> hist(crabs$CW，cot = "Gray", main = "Histogram of Crab", xlab = "Ca 


rapace width", ylab = "Counter", breaks = c(15, 25, 35, 45, 55)) 
> 


[执行 结果 ] 
Histogram of Crab 


60 80 


Counter 
20 40 


0 





Carapace width 


16-4-2 ”绘制 密度 图 


R 语言 提供 的 密度 函数 density ()， 可 以 将 欲 建 图 表 的 数据 利用 这 个 函数 转 成 一 个 密度 对 象 串 
行 (List )， 然 后 将 这 个 对 象 放 入 plot O 函数 内 就 可 以 绘制 密度 图 。 下 列 程序 代码 是 将 crabs $ CW 
对 象 转 成 密度 对 象 串 行 ， 同 时 用 str O 函数 验证 这 个 密度 对 象 。 
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> dencrabs <- density(crabs$OW) 
> 
> str(dencrabs) 


List of 7 

$x : num [1:512] 9.77 9.87 9.97 10.07 10.18 ... 

$y : num [1:512] 1.11e-05 1.27e-05 1.43e-05 1.63e-05 1.85e-05 ... 
$ bw : num 2.44 

$n : int 200 

$ call : language density.default(x = crabs$OW) 

$ data.name: chr "crabsSOW" 


$ has.na  : logi FALSE 
- attr(*, "class")- chr "density" 
> 


由 上 述 执行 结果 可 以 看 到 我 们 已 经 将 crabs $ CW 对 象 转 成 串 行 (List) 对 象 。 只 要 将 上 述 密 
度 对 象 放 入 plot O 函数 ， 即 可 绘制 密度 图 。 
实例 16_42 : 使 用 dencrabs 密度 对 象 绘制 密度 图 。 


> plot(dencrabs) 
> 


[执行 结果 ] 


density.default(x = crabs$CW) 





0.04 





Density 
0.00 0.02 


10 20 30 40 50 60 
N=200 Bandwidth = 2.444 
与 hist () 函数 一 样 ， 可 以 使 用 下 列 参数 设置 图 的 标题 。 
口 main : 图 表 标 题 。 
口 xlab : x 轴 标 题 。 
口 ylab : y 轴 标 题 。 
实例 ch16_43 : 使 用 mycar $ mpg 绘制 密度 图 。 
> dencars <- density(mycar$mpg) 


> plot(dencars, main = "Miles per Gallon") 
- 
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[执行 结果 ] 


Miles per Gallon 





Density 


| V 


10 20 30 40 








0.00 0.02 0.04 0.06 





N-32 Bandwidth = 2.477 


16-4-3 ”在 直方 图 内 绘制 密度 图 


R 语言 是 允许 你 在 直方 图 内 多 加 上 密度 图 的 ， 若 想 达 到 这 个 目标 ， 在 使 用 hist O 函数 时 ， 需 
增加 下 列 参 数 。 

freq = FALSE 

然后 调用 下 列 函数 。 

lines () 
实例 ch16_44 : 建立 对 象 crabs $ CW 的 直方 图 ， 再 加 上 密度 图 。 


> histCcrabs$CW, freq = FALSE) 
> dencrabs <- densityCcrabsSCW) 
> lines(dencrabs) 


Histogram of crabs$CW 


0.04 





Density 
0.02 

















0.00 





20 30 40 50 


crabsSCW 
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认识 数据 汇总 函数 summary () 


经 过 前 面 章节 的 洗礼 ， 相 信 位 各 位 拿 到 数据 ， 可 以 很 容易 地 分 析 这 个 数据 的 基本 数据 ， 例 
如 ， 可 以 使 用 输入 对 象 名 称 了 解 内 容 ， 可 以 使 用 sr O 函数 了 解数 据 结 构 。 不 过 ， 对 于 数据 分 析 
师 ( Data Analyst ) 或 大 数据 工程 师 ( Big Data Engineer ) 而 言 这 些 数据 是 不 够 的 ， 本 节 将 讲解 另 一 
个 函数 summary ()， 这 个 函数 可 以 传 回 数据 分 布 的 信息 。 
实例 ch16 45 : 使 用 summary () 函数 了 解 mycar 对 象 。 





> summary(mycar) 

mp9 cyt am gear 
Min.  :10.40 Min.  :4.000 Auto :19 M Min.  :3.000 
ist Qu.:15.43 ist Qu.:4.000  Manual:13 1st Qu.:3.000 


Median :19.20 Median :6.000 Median :4.000 
Mean  :20.09 Mean  :6.188 Mean  :3.688 
3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:4.000 
Max.  :33.90 Max.  :8.000 Max.  :5.000 
> 


实例 ch16_46 : 使 用 summary () 函数 了 解 stateUSA 对 象 。 


> summary(stateUSA) 


name popu area region 
Alabama 1 Min. : 365 Min. : 1214 Northeast :9 
Alaska 1 ist Qu.: 1080 ist Qu.: 37317 South :16 
Arizona :1 Median : 2838 Median : 56222 North Central:12 
Arkansas : 1 Mean : 4246 Mean  : 72368 West :13 
California: 1 3rd Qu.: 4968 3rd Qu.: 83234 
Colorado : 1 Max.  :21198 Max.  :589757 
(Other)  :44 


由 上 述 两 个 实例 ， 我 们 可 以 获得 下 列 信息 。 
1) 数值 变量 : 会 列 出 最 小 值 、 最 大 值 、 平 均 数 、 第 1 个 四 分 位 数 、 中 位 数 (也 可 想 成 第 2 个 四 
分 位 数 )、 第 3 个 四 分 位 数 。 如 果 有 NA 值 ， 也 会 列 出 NA 值 的 数量 。 
2) 因子 : 列 出 频率 表 ， 如 果 有 NA 值 ， 也 会 列 出 NA 值 的 数量 。 
3) 字符 串 变 量 : 列 出 字符 串 长 度 。 
在 上 述 两 个 实例 中 ， 对 stateUSA 对 象 使 用 summary () 函数 后 所 获得 的 结果 是 完美 的 。 但 仔 
细 看 对 mycar 对 象 使 用 summary () 后 的 输出 结果 , 在 cyl 变量 和 gear 变量 均 可 以 发 现 最 小 值 和 第 
1 个 四 分 位 数 相 同 ， 为 了 避免 这 种 情况 ,在 以 后 碰 上 类 似 的 数据 只 要 将 它们 转 成 因子 即 可 。 
实例 ch16_47 : 将 mycar 对 象 的 cyl 和 gear 变量 转 成 因子 。 





> mycar$cyl «- as.factor(mycar$cyl) #CyL 对 象 转 成 因子 
> mycar$gear «- as.factor(mycar$gear) #gear 对 象 转 成 因子 
> summary(mycar) # 验 证 结果 
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mpg 
Min.  :10.40 4:11 Min.  :0.0000 3:15 
1st Qu.:15.43 6: 7 ist Qu.:0.0000 4:12 
Median :19.20 8:14 Median :0.0000 5: 5 


Mean  :20.09 Mean  :0.4062 
3rd Qu. :22.80 3rd Qu.:1.0000 
Max. 133.90 Max. 11.0000 
- 


绘制 箱 形 图 


在 本 章 16-4 节 所 绘制 的 图 表 其 实 所 使 用 的 变量 只 有 1 个 ， 虽 然 我 们 也 获得 了 一 些 有 用 的 信 
息 , 但 是 若 想 了 解 对 象 全 面 的 信息 ， 那 是 不 够 的 ， 例 如 ， 如 果 我 们 想 了 解 下 列 信息 ， 如 果 只 有 一 
个 变量 是 无 法 得 到 结果 的 。 
1) iHe (cyl) 对 油耗 (mpg) 的 影响 ? 
2)” 自 排 与 手 排 (am) 对 油耗 (mpg) 的 影响 ? 
3) 挡 位 数 (gear) 对 油耗 (mpg) 的 影响 ? 

当然 如 果 你 已 经 熟悉 R 语言 了 ， 则 可 以 立即 想到 可 以 使 用 tapply O 函数 ， 其 实 R 语言 提供 
的 功能 不 仅 如 此 ， 我 们 可 以 使 用 本 节 介 绍 的 绘制 箱 形 图 ( Boxplot ) 解决 上 述 问题 。 这 个 绘制 箱 形 
图 工具 的 原理 ， 基 本 上 是 将 因子 变量 的 每 个 类 别 视 为 原始 数据 对 象 的 子 集 ， 依 照 每 一 个 类 别 的 最 
小 值 、 最 大 值 、 平 均 数 、 第 1 个 四 分 位 数 ( 也 有 人 称 下 四 分 位 数 )、 中 位 数 ( 也 可 想 成 第 2 个 四 分 
位 数 )、 第 3 个 四 分 位 数 ( 也 有 人 称 上 四 分 位 数 ) 绘 出 箱 形 图 。 在 此 ， 笔 者 先 介绍 实例 ， 最 后 再 解 
说 箱 形 图 的 意义 。 
实例 ch16 48 : 使 用 mycar 对 象 绘制 汽缸 数 (cyl ) 对 油耗 ( mpg ) 影响 的 箱 形 图 。 

> boxplot(mpg ~ cyl, data = mycar) 


> 


[ 执行 结果 ] 

















15 20 25 30 


10 





CHAPTER 16 数据 汇总 与 简单 图 表 制 作 


上 述 boxplot () 函数 的 第 1 个 参数 ， 如 下 所 示 ， 其 实 是 一 个 公式 。 

mpg ~ cyl 

其 意义 是 与 变量 cyl 类 别 ( 可 想 成 与 这 个 汽缸 数 ) 相关 的 mpg 数值 ， 将 被 带 入 boxplot O 函数 
中 运算 ， 而 箱 形 图 各 线条 的 意义 如 下 所 示 。 
1) 箱子 上 下 边缘 线条 : 代表 上 四 分 位 数 和 下 四 分 位 数 。 
2) 横向 贯穿 箱子 粗 线条 : 中 位 数 。 
3) ”纵向 贯穿 箱子 的 线条 : 最 大 值 与 最 小 值 或 是 上 下 四 分 位 间距 离 的 1.5 倍 。 

之 前 使 用 的 main 参数 仍 可 以 用 在 这 里 列 出 箱 形 图 的 标题 , “eol =” 参 数 仍 可 用 于 产生 彩色 箱 
形 图 。 
实例 16. 49 : 使 用 mycar 对 象 绘制 手 排 或 自 排 (am ) 对 油耗 (mpg) 影响 的 箱 形 图 ， 图 表 标 题 是 

"am vs mpg”， 箱 形 图 用 黄色 绘制 。 


> boxplot(mpg ~ am, data = mycar, main = "am vs mpg", col = "Yellow") 
> 





[执行 结果 ] 
am vs mpg 
3 
a = 








Auto Manual 


实例 16_50 : 使 用 mycar 对 象 绘制 挡 位 ( gear ) 对 油耗 (mpg) 影响 的 箱 形 图 ， 图 表 标题 是 “gear 
vs mpg”， 箱 形 图 用 蓝 色 绘制 。 


> boxplot(mpg ~ gear, data = mycar, main = "gear vs mpg", col = "Blue") 
> 
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[执行 结果 ] 


15 20 25 30 
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gear vs mpg 











实例 ch16_51 : 使 用 stateUSA 对 象 绘制 美国 区 域 ( region ) 对 人 口 数 (popu) 影响 的 箱 形 图 ， 图 


表 标 题 是 “Region vs Po 


pulation”"， 箱 形 图 用 绿色 绘制 。 


> boxplot(popu ~ region, data = stateUSA, main = "Region vs Population", 


col = "Green") 
> 


15000 


0 5000 


Region vs Population 








o 


T —— 
— i H — 
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其 实 如 果 仔 细 看 上 述 箱 形 图 ， 可 以 看 到 Northeast, South 和 West 上 方 有 空心 圆 点 ， 那 才 是 真 
正 的 线段 的 最 大 值 ( 在 其 他 实例 中 也 许 会 在 线段 下 方 看 到 空心 圆 点 ， 此 时 是 代表 线段 的 最 小 值 )， 


若是 希望 箱 形 图 线段 指 


向 最 大 或 最 小 值 ， 可 以 在 boxplot () 函数 内 加 上 参数 “range = 0”。 


实例 ch16_52 : 在 boxplot () 函数 内 加 上 参数 “range = 0”"， 然 后 重新 设计 实例 ch16_51,， 使 用 





stateUSA 对 象 绘制 美国 


区 域 ( region ) 对 人 口 数 (popu ) 影响 的 箱 形 图 ， 图 表 标 题 是 “Region vs 


Population”， 箱 形 图 用 绿色 绘制 。 
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> boxplot(popu ~ region, data = stateUSA, main = "Region vs Population", 
col = "Green", range = 0) 
> 


[执行 结果 ] 
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数据 的 相关 性 分 析 


对 于 两 个 数值 向 量变 量 来 看 ， 两 个 向 量变 量 的 线性 变化 也 可 以 用 量化 来 进行 分 析 。 当 其 中 一 
个 增加 、 另 一 个 也 会 相对 地 增加 ， 这 样 的 相关 关系 就 是 正 向 相关 。 例 如 身高 高 的 人 往往 体重 也 会 
比较 重 一 些 ， 就 是 符合 正 相关 的 概念 。 反 之 若是 其 中 一 个 增加 、 另 一 个 反 随 之 减少 ， 这 样 就 是 负 
相关 了 。 例 如 货车 承载 的 货物 越 重 则 其 每 升 汽油 可 以 行驶 的 距离 也 就 越 短 ， 可 以 说 是 符合 负 相关 
的 概念 。 

统计 学 中 对 于 反映 两 个 向 量变 量 的 相关 程度 指标 称 相关 系数 ( Correlation Coefficient )， 相 关系 
数 的 数值 是 在 -1 至 1 之 间 ; 愈 靠近 1 的 相关 系数 数值 代表 正 相 关 越 强 ， 而 越 靠近 -1 的 相关 系数 
数值 则 表示 负 相关 越 强 ; 而 靠近 在 0 附近 则 表示 两 变量 间 的 线性 相关 是 相对 微弱 的 。 

了 解 了 以 上 概念 ， 接 下 来 我 们 将 以 R 语言 内 建 的 数据 集 作 相关 性 分 析 。 


16-7-1 iris 对 象 数据 的 相关 性 分 析 
先前 已 有 多 次 使 用 这 个 对 象 了 ， 以 下 先 列 出 它 的 字段 信息 。 


> names(iris) 
[1] "Sepal.Length" "Sepal.Width"  "Petal.Length" "Petal.Width" "Species" 
- 


上 述 是 3 个 品种 150 打药 尾 花 的 数据 ， 包 括 以 下 字段 。 
O Sepal.Length : HKEE. 
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口 Sepal.Width : 花 苯 宽度 。 
口 Petal.Length : 花瓣 长 度 。 
口 Petal.Width : 花瓣 宽度 。 
口 Species : 品种 名 称 。 
如 果 我 们 想 要 了 解 上 述 iris 数据 中 Sepal.Length, Sepal.Width, Petal.Length, Petal.Width 的 相 
关 性 ,那么 我 们 可 以 使 cor O 函数 。 
实例 ch16_53 : 针对 Sepal.Length 和 Sepal.Width 作 相 关 性 分 析 。 


> cor(iris$Sepal.Length, iris$Sepal.Width) 
[1] -0.1175698 
> 


由 上 述 执行 结果 可 以 发 现 ， 原 来 花 昔 长 度 和 花 苯 宽 度 是 负 相关 的 关系 。 
实例 ch16_54 : 针对 Petal.Length 和 Petal.Width 作 相关 性 分 析 。 


> cor(iris$Petal.Length, iris$Petal.Width) 
[1] 0.9628654 


由 上 述 执行 结果 接近 1 RR, ISOKAERHS SEMER EER TERIS IR. Rr. EST 
将 用 相关 系数 矩阵 列 出 Sepal.Length , Sepal. Width, Petal.Length, Petal.Width 的 相关 性 作 此 项 数据 
的 总 结 。 
实例 ch16_55 : 列 出 iris 对 象 中 Sepal.Length 、Sepal.Width Petal.Length, Petal.Width 的 相关 系 
数 和 矩阵 。 


> cor(iris[-5]) 

Sepal.Length Sepal.Width Petal.Length Petal.Width 
Sepal.Length 1.0000000 -0.1175698 0.8717538  0.8179411 
Sepal.Width -0.1175698 1.0 -0.4284401 -0.3661259 
Petal.Length 0.8717538 -0.4284401 9.9628654 
Petal.Width 0.8179411 -0.3661259 0.9628654  1.0000000 
- 


在 上 述 执行 结果 中 ,， 其 主 对 角 线 的 相关 系数 是 相同 变量 的 关系 ， 因 此 都 是 1， 其 他 则 是 两 两 
不 同 变量 间 的 相关 系数 。 其 实 我 们 也 可 以 利用 plot O 函数 ， 绘 出 两 两 不 同 变量 间 的 相关 系数 的 散 
点 图 ( Scatterplot )。 
实例 ch16_56 : 绘 出 iris 对 象 中 Sepal.Length, Sepal. Width, Petal.Length, 、Petal.Width， 两 两 不 同 
变数 间 的 相关 系数 的 散 点 图 。 


> plot(iris[-5]) 


> 
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在 上 述 散 点 图 中 ,由 于 主 对 角 线 的 相关 系数 是 相同 变量 的 关系 ,结果 是 1， 因 此 直接 用 数据 
名 称 取代 。 其 实数 据 名 称 也 同时 指出 x 轴 和 y 轴 所 代表 的 意义 ， 当 然 x 轴 和 y 轴 所 代表 的 意义 也 
和 实例 ch16_55 相同 。 此 外 ， 在 这 个 实例 中 ， 笔 者 使 用 plot O 函数 执行 绘制 散 点 图 的 任务 ， 这 个 
函数 其 实 和 print O 函数 类 似 ， 这 是 一 个 很 有 弹性 的 函数 ， 当 它 发 现 所 传人 的 参数 是 数据 框 时 ， 
它 是 调用 pairs O 执行 绘制 上 述 散 点 图 。 所 以 ， 你 也 可 以 使 用 下 列 方式 绘制 上 述 散 点 图 ， 可 以 获 
得 一 样 的 结果 。 


> pairs(iris[-5]) 
> 


最 后 使 用 cor O 函数 时 须 考虑 数据 中 有 NA 值 的 情形 ， 此 时 需 使 用 参数 “use =”"， 其 基本 使 用 
方式 如 下 所 示 。 
1) 参数 use =“everything” 是 默认 值 ， 若 是 向 量变 量 元 素 中 有 NA， 则 该 元 素 的 计算 结果 也 是 
NA。 
2) 参数 use =“complete”， 不 处 理 NA 值 ， 此 时 只 计算 非 NA 值 的 部 分 。 
3) 参数 use=“pairwise"， 变 量 内 有 NA 值 的 向 量 则 不 了 予 计 算 。 


16-7-2 stateUSA 对 象 数 据 的 相关 性 分 析 


stateUSA 对 象 的 字段 名 称 如 下 所 示 。 


> names(stateUSA) 
[1] "name" "popu" 
> 


" 


area" “region” 


343 


R 语言 一 一 迈 向 大 数据 之 路 


接着 笔者 想 了 解 美国 各 州 人 口 数量 与 该 州 面 积 大 小 的 相关 性 。 
实例 ch16_57 : 执行 美国 各 州 人 口 数量 与 该 州 面积 大 小 的 相关 性 分 析 。 
> cor(stateUSA$popu, stateUSA$area) 


[1] 0.02156692 
> 


由 上 述 执行 结果 可 知 ， 结 果 数 值 接近 0， 原 来 美国 各 州 的 人 口 数 与 州 面积 相关 性 不 大 。 
实例 ch16_58 : 为 美国 各 州 人 口 数 量 与 该 州 面积 大 小 的 相关 性 绘制 散 点 图 。 


> plot(stateUSA[2:3]) 














[执行 结果 ] 

io 
eo 
t 
o 
oO 
8 
+ 
o 

mo + 

g 

® 8 
+ 
& 
e 
e 
* 
o 
eo 

0 5000 10000 15000 20000 
popu 


16-7-3 crabs 对 象 数据 的 相关 性 分 析 
crabs 对 象 包括 的 字段 如 下 所 示 。 


> names(crabs) 
[1] "sp" "sex" "index" "FL" "Ry" "CL" "Cu" "Bp" 
> 


上 述 第 4 字段 至 第 8 字段 是 200 只 澳洲 螃蟹 身体 各 部 位 的 测量 值 。 
实例 ch16_59 : 列 出 crabs 对 象 FL ( 甲壳 额 叶 区 域 的 宽度 frontal lobe size), RW ( 甲壳 后 方 宽度 
rear width )、CL ( 甲壳 长 度 ), CW ( 甲壳 宽度 ) 和 BD ( 身体 厚度 ) 的 相关 系数 矩阵 。 


> cor(crabs[4:8]) 

FL RW CL CN BD 
FL 1.0000000 0.9069876 0.9788418 0.9649558 0.9876272 
RW 0.9069876 1.0000000 0.8927430 0.9004021 0.8892054 
CL 0.9788418 0.8927430 1.0000000 0.9950225 0.9832038 
CW 0.9649558 0.9004021 0.9950225 1.0000000 0.9678117 
BD 0.9876272 0.8892054 0.9832038 0.9678117 1.0000000 


> 
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由 上 述 矩 阵 可 以 看 到 所 有 相关 系数 数值 均 在 0.84 以 上 ， 所 以 上 述 螃蟹 身体 各 部 位 大 小 均 存在 
很 强 的 正 相关 。 


使 用 表格 进行 数据 分 析 


在 本 章 前 面 我 们 已 经 多 次 使 用 table O 函数 ， 针 对 一 个 变量 的 情况 进行 数据 汇总 ， 当 然 表 格 
也 适合 为 多 个 变量 的 数据 进行 汇总 。 


16-8-1 简单 的 表格 分 析 与 使 用 


本 章 已 经 多 次 使 用 mycar 对 象 了 ， 假 设 我 们 想 了 解 3 挡 (gear), 4 PURI S 挡 数 车 子 各 有 多 少 
种 是 属于 自 排 车 或 手 排 车 ， 对 数据 分 析 而 言 ， 此 时 有 两 个 变量 ， 一 个 是 挡 数 ( gear )， 另 一 个 是 自 
排 或 手 排 (am )， 我 们 用 下 列 实 例 解 说 。 
实例 ch16_60 : 使 用 mycar 对 象 建立 挡 数 ( gear ) 和 自 排 或 手 排 (am) 各 种 可 能 组 合 的 表格 。 


> mycartable <- with(mycar, table(am, gear)) 


» mycartable 
gear 
am LEE 3 


Auto 15 4 0 
Manual 0 8 5 
> 


对 上 述 table O 函数 而 言 ， 第 1 个 参数 被 作为 行 名 称 ， 第 2 个 参数 则 作为 列 名 称 。 这 个 表 已 经 
将 所 有 组 合 都 列 出 来 了 ,例如 ， 由 上 述 表格 可 以 得 知 4 个 挡 的 车 有 4 种 是 手 排 车 ，8 种 是 自 排 车 。 


16-8-2 ”从 无 到 有 建立 一 个 表格 数据 
前 一 个 小 节 我 们 利用 了 现 有 的 数据 框 对 象 建立 了 一 个 表格 数据 ， 本 节 笔 者 将 从 最 基础 的 开始 
从 无 到 有 一 步 一 步 讲解 如 何 建立 表格 。 
在 医学 研究 中 ， 常 常 发 现 吃 某 种 食物 可 能 造成 某 些 疾病 ， 例 如 ， 常 吃 鸡 鸭 的 颈 部 ， 可 能 造成 
身体 疾病 。 或 常 抽烟 可 能 造成 肺癌 。 这 时 会 有 下 列 4 种 可 能 。 
1) ”抽烟 造成 肺癌 。 
2) ”抽烟 身体 仍 保持 健康 。 
3) 不 抽烟 仍 有 肺癌 。 
4) 不 抽烟 身体 保持 健康 。 
假设 目前 我 们 抽样 调查 的 数据 如 下 表 所 示 。 
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不 抽烟 20 80 | 








接 下 来 ， 笔 者 将 讲解 如 何 一 步 一 步 用 上 述 数据 建立 表格 。 
实例 ch16_61 : 将 上 述 抽样 调查 数据 转换 成 矩阵 。 

> myresearch <- matrix(c(20, 72, 80, 28), ncol = 2) 

» rownames(myresearch) «- c("No.Smoking", "Smoking") 


> colnames(myresearch) <- c("Lung.Cancer", "Health") 
> 


下 列 是 验证 这 个 矩阵 myresearch 的 输出 结果 。 
> myresearch 
Lung.Cancer Health 

No. Smoking 20 — 80 

Smoking 72 28 

在 上 述 实例 中 笔者 先 建立 矩阵 myresearch， 接 着 为 这 个 矩阵 的 行 和 列 建 立 名 称 。 接 下 来 我 们 
可 以 使 用 上 述 和 矩阵 建立 表格 。 
实例 ch16_62 : 将 矩阵 myresearch 转 成 表格 数据 ， 笔 者 为 这 个 表格 取 名 mytable。 


> mytable «- as.table(myresearch) 
> 


[执行 结果 ] 
> mytable 
Lung.Cancer Health 
No. Smoking 20 80 
Smoking 72 28 


我 们 已 经 成 功 地 将 实验 收集 的 数据 转 成 表格 数据 了 ,由 上 述 执行 结果 看 来 ， 矩 阵 myresearch 
对 象 和 表格 mytable 对 象 好 像 相 同 ， 其 实 不 然 ， 若 是 我 们 使 用 str O 函数 ， 如 下 程序 代码 所 示 ， 可 
以 发 现 它们 彼此 是 有 差别 的 ， 在 下 一 个 小 节 中 笔者 会 介绍 它们 之 间 的 差别 。 表 格 建立 好 了 以 后 ， 
如 果 想 要 存 取 数据 ， 与 其 他 数据 类 似 ， 其 实 很 容易 ， 下 列 是 实例 。 

> str(myresearch) 

num [1:2, 1:2] 20 72 80 28 

- attr(*, "dimnames")-List of 2 

..$ : chr [1:2] "No.Smoking" "Smoking" 
..$ : chr [1:2] "Lung.Cancer" "Health" 
» str(mytable) 


table [1:2, 1:2] 20 72 80 28 
- attr(*, "dimnames")-List of 2 
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..$ : chr [1:2] "No.Smoking" "Smoking" 
..$ : chr [1:2] "Lung.Cancer" "Health" 
> 


实例 ch16_63 : 在 数据 中 提取 抽烟 的 人 中 患 肺癌 的 人 数 。 


> mytable["Smoking", "Lung.Cancer"] 
[1 72 
- 


实例 chi6 64 : 在 数据 中 提取 不 抽烟 的 人 中 健康 的 人 数 。 


> mytable["No.Smoking", "Health"] 
[1] 80 
> 


16-8-3 分别 将 矩阵 与 表格 转 成 数据 框 


前 面 笔者 已 讲解 矩阵 与 表格 数据 虽然 看 起 来 相同 ， 但 使 用 sr O 函数 后 ， 可 以 看 到 不 同 ， 如 
果 我 们 分 别 将 myresearch 矩阵 对 象 和 mytable 表格 对 象 转 成 数据 框 则 更 可 以 更 明显 地 看 出 彼此 的 
差别 。 
实例 ch16_65 : 将 myresearch 矩阵 对 象 转 成 数据 框 。 

> myresearch.df <- as.data.frame(myresearch) 

> str(myresearch.df) 

'data.frame': 2 obs. of 2 variables: 

$ Lung.Cancer: num 20 72 


$ Health : num 80 28 
> 


由 上 述 执行 结果 可 以 看 出 ，myresearch 中 有 两 个 变量 ， 每 个 变量 有 两 个 实验 的 数据 。 
实例 ch16_66 : 将 mytable 表格 对 象 转 成 数据 框 。 


> mytable.df «- as.data.frame(mytable) 

» str(mytable.df) 

'data.frame': 4 obs. of 3 variables: 

$ Vari: Factor w/ 2 levels "No.Smoking","Smoking": 12 12 
$ Var2: Factor w/ 2 levels "Lung.Cancer",..: 1122 

$ Freq: num 20 72 80 28 

> 


此 时 的 数据 框 有 3 个 变量 ， 其 中 Varl 和 Var2 均 是 因子 ， 另 一 个 变量 是 Freq，Freq 包含 Varl 
和 Var2 各 种 组 合 的 实验 数据 。 
16-8-4 ”边际 总 和 


在 数据 分 析 过 程 中 ， 我 们 很 可 能 会 对 表格 的 行 或 列 进行 加 总 运算 ， 所 得 值 我 们 称 边际 总 和 
( Marginal Totals )。 我 们 可 以 使 用 下 列 函 数 。 
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addmargins ( A, margin ) 

O A. 表格 数据 或 数组 。 

O margin : 若 省 略 则 行 与 列 缘 计算 ， 若 为 1 则 计算 “ 列 ” 所 以 “ 行 ”会 增加 Sum， 若 为 2 则 计 
算 “ 行 “所 以 “ 列 ” 会 增加 Sum。 


实例 ch16_67 : 使 用 mytable 对 象 ， 计 算 参 与 研究 中 抽烟 者 和 不 抽烟 者 的 总 人 数 。 


> addmargins(mytable, margin = 2) 

Lung.Cancer Health Sum 
No. Smoking 20 80 100 
Smoking 72 28 100 
> 


由 于 是 要 将 Smoking 和 No.Smoking 这 2 行 数据 相 加 ， 然 后 增加 Sum 这 一 字段 ， 所 以 设 定 
"margin = 2”。 
实例 ch16_68 : 使 用 mytable 对 象 ， 计 算 参 与 研究 中 健康 和 不 健康 的 总 人 数 。 


> addmargins(mytable, margin = 1) 
Lung.Cancer Health 


No. Smoking 20 — 80 
Smoking 72 — 28 
Sum 92 108 


实例 ch16 69 : 使 用 mytable 对 象 ， 同 时 计算 参与 研究 中 抽烟 者 和 不 抽烟 者 的 总 人 数 和 参与 研究 
中 健康 和 不 健康 的 总 人 数 。 


> addmargins(mytable) 
Lung.Cancer Health Sum 


No. Smoking 20 80 100 
Smoking 72 28 100 
Sum 92 108 200 


> 


16-8-5 计算 数据 的 占 比 


在 分 析 表 格 的 过 程 中 ， 如 果 纯 数字 ， 可 能 感觉 没有 这 么 强烈 ， 例 如 以 mytable 为 例 ， 我 想 了 
解 在 实验 的 抽样 调查 中 ， 抽 烟 同 时 有 肺癌 者 的 占 比 是 多 少 ? 或 是 不 抽烟 同时 身体 健康 者 的 占 比 是 
多 少 ? R 语言 提供 的 prob.table O 函数 可 以 很 轻易 给 我 们 答案 。 
实例 ch16_70 : 计算 mytable 表格 对 象 的 数据 占 比 。 


> prop.table(mytable) 

Lung.Cancer Health 
No. Smoking 9.10 0.40 
Smoking 0.36 0.14 
- 


1) 
2) 
3) 
4) 
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由 上 述 执行 结果 我 们 获得 了 下 列 信息 。 

不 抽烟 而 震 患 肺癌 者 在 全 部 受 测 者 中 的 占 比 是 0.1。 
抽烟 而 震 患 肺癌 者 在 全 部 受 测 者 中 的 占 比 是 0.36。 
不 抽烟 而 健康 者 在 全 部 受 测 者 中 的 占 比 是 0.40。 
抽烟 而 健康 者 在 全 部 受 测 者 中 的 占 比 是 0.14。 


16-8-6 ”计算 行 与 列 的 数据 占 比 


假设 我 们 现在 只 想 要 了 解 实验 数据 中 抽烟 者 中 震 患 肺癌 或 是 健康 的 人 的 占 比 ， 以 及 不 抽 


烟 者 中 替 患 肺癌 或 是 健康 的 人 的 占 比 。 此 时 在 利用 prob.table O 函数 时 ， 也 可 以 通过 增加 参数 
margin， 实 现 只 针对 行 做 计算 或 列 做 计算 。 

实例 ch16_71 : 计算 抽烟 者 中 震 患 肺癌 或 是 健康 者 的 占 比 ， 以 及 不 抽烟 者 中 震 患 肺癌 或 是 健康 者 
的 占 比 。 


1) 
2) 
3) 
4) 


> prop.table(mytable, margin = 1) 
Lung.Cancer Health 

No. Smoking 0.20 0.80 

Smoking 0.72 0.28 

> 


由 上 述 执行 结果 可 以 获得 下 列 信 息 。 

不 抽烟 而 内 患 肺癌 者 在 全 部 不 抽烟 受 测 者 中 的 占 比 是 0.20。 
不 抽烟 而 健康 者 在 全 部 不 抽烟 受 测 者 中 的 占 比 是 0.80。 
抽烟 而 詹 患 肺癌 者 在 全 部 抽烟 受 测 者 中 的 占 比 是 0.72。 
抽烟 而 健康 者 在 全 部 抽烟 受 测 者 中 的 占 比 是 0.28。 
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本 章 习 题 


一 、 判 断 题 


( 
( 
( 
( 
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) 1. 
3:3: 
)3: 
) 4. 


我 们 可 以 使 用 install O 函数 来 下 载 所 需要 的 扩展 包 。 

常 被 用 来 获得 数据 集中 趋势 的 R 函数 有 3 种 : mean (), median () 与 mode ()。 
R 程序 求 取 标准 偏差 的 函数 为 stdev ()。 

有 如 下 两 个 命令 。 


> X«- c(3,3,3,2,2,1) 
» unique(x) 


上 述 命令 的 执行 结果 如 下 所 示 。 

[i 

我 们 可 以 用 quantile O 函数 同时 取得 第 1 个 四 分 位 数 、 第 2 个 四 分 位 数 以 及 第 3 个 
四 分 位 数 。 

有 如 下 命令 。 

> quantile(1:7) 

上 述 命令 的 执行 结果 如 下 所 示 。 


0% 25% 50% 75% 100% 
1.0 2.5 4.0 5.5 7.0 


R 可 以 使 用 table O 函数 去 取得 数据 出 现 的 次 数 或 称 频率 。 

及 可 以 使 用 hist O 函数 去 绘制 直方 图 ， 若 使 用 参数 nbreaks =10， 表 示 指 定 柱状 的 数 
量 为 10。 

R 语言 提供 的 密度 函数 density ()， 可 以 将 欲 建 图 表 的 数据 利用 这 个 函数 转 成 一 个 密度 
对 象 串 行 ( List )， 然 后 将 这 个 对 象 放 入 plot O 函数 内 就 可 以 绘制 密度 图 。 


. mycar 对 象 的 前 6 个 行 数据 如 下 所 示 。 
mpg cyl am gear 

Mazda RX4 21.0 6Manual 4 
Mazda RX4 Wag — 21.0 6 Manual 4 
Datsun 710 22.8 4Manual 4 
Hornet 4 Drive 21.4 6 Auto 3 
Hornet Sportabout 18.7 8 Auto 3 
Valiant 18.1 6 Awto 3 


若 使 用 mycar KARNER 8 42 TNL ( cyl ) 对 油耗 (mpg) 之 间 的 箱 形 比较 图 。 可 以 使 
用 以 下 的 R 命令 。 
> boxplot(mpg ~ cyl, data = mycar) 


( 
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二 、 单 选 题 
) 1. 以 下 哪 一 个 不 是 正确 的 求 取 数据 集中 趋势 的 函数 ? 
A. mean () B. median () 
C. 所 列 3 个 函数 都 是 D. mode () 
)2. R 程序 求 取 标 准 偏差 的 函数 为 何 ? 
A. stdev () B. std () C.sd () D. dev () 
) 3， 以 下 命令 会 得 到 哪 种 数值 结果 ? 
> x<- c(3,3,3,2,2,1) 
> length(unique(x)) 
A. [1] I B.[1]6 C. [1]3 D.[1]0 
) 4， 以 下 命令 会 得 到 哪 种 执行 结果 ? 


) 6. 


> X «- c(1,11,1,1,2,2,3) 


> table(x) 
A.[1]123 B X33 
421 
Cx D.[1]14223 1 
12-3 
123 


以 下 程序 片断 会 得 到 哪 种 执行 结果 ? 
» X «- c(1,1,1,1,2,2,3,4) 

» tx «- table(x) 

» index «- tx -- max(tx) 

» names(tx[index]) 


A.[1] *1" B.[1] "2" eua D. [1] *4" 
以 下 命令 会 得 到 哪 种 数值 结果 ? 


> X <- c(1,1,1,1,2,2,3,4) 
> which.maxOO 


A.[H1 B.[1]4 C.[1]8 D.[1]6 
给 定 x 向量 内 容 为 (1,2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 7 )， 使 用 以 下 哪个 命令 可 以 
得 到 以 下 的 统计 图 ? 

Histogram of x 


Density 
000 020 
J 
y 
Ly 














A. > hist(x) B. > hist(x,freq=FALSE) 
> density(x) > lines(density(x)) 
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)8. 


) 10. 


C. > plot(densityOO) D. > hist(x) 
> histo > lines(density(x)) 


mycar 对 象 的 前 6 个 行 数 据 如 下 所 示 。 


mpg cyl am gear 


Mazda RX4 21.0 6 Manual 
Mazda RX4 Wag 21.0 6 Manual 
Datsun 710 22.8 4 Manual 


Hornet 4 Drive 21.4 6 Auto 
Hornet Sportabout 18.7 8 Auto 
Valiant 18.1 6 Auto 


若 使 用 mycar EXN S 2 MTK (eyl) 对 油耗 (mpg) 影响 的 箱 形 图 。 应 该 使 用 以 
下 的 哪 一 个 命令 ? 
A. > boxplot(mpg | cy1,data=mycar) 


wwwa s e 


B. > boxplot(mpg ~ cyl, data = mycar) 

C. > boxplot(mycar$mpg + mycar$cy1) 

D. > boxp1 ot(~mpg+cy1 j data=mycar) 

若 两 个 向 量 x y 执行 了 以 下 的 命令 ， 并 且 结 果 如 下 所 示 。 
> length(x) 

[1] 10 


> cor(x,y) 
[1] -0.9006627 


可 知 两 向 量 之 间 的 关系 为 何 ? 


A. 轻微 的 正 线性 相关 B. 很 强 的 正 线性 相关 
C. 很 强 的 负 线性 相关 D. 无 法 判断 线性 相关 性 
若 给 定 1 table 对 象 ， 它 的 内 容 如 下 所 示 。 
> tabl 

co 
A13 
B24 


使 用 以 下 哪个 命令 可 以 得 到 下 列 加 总 的 结果 ? 


C D Sum 
A13 4 
B24 6 


A. > addrow(tabl1) 

B. > addmargins(tabi1,margin-1) 
C. > addmargins(tabl,margin-2) 
D. 


. > addmargins(tab1) 


三 、 多 选 题 


( 


Jd. 


以 下 何 命令 可 以 用 来 下 载 MASS 扩充 包 ? ( 选择 两 项 ) 
A. » load (MASS ) B. » install.packages ( MASS ) 
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C. > download ( MASS ) D. > library ( MASS ) 
E. > install ( MASS ) 
)2. summary () 函数 所 提供 的 结果 中 不 包含 以 下 哪 种 统计 值 ? ( 选择 两 项 ) 


A. mean B. 3rd. Qu. 
C. median D. mode 
E. var 


实际 操作 题 ( 如 果 题 目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 

以 x«-rnorm ( 100,mean=60,sd=12 ) 产生 包含 100 个 平均 数 为 60， 标 准 偏差 为 12 的 正 态 分 布 
随机 数 向 量 x， 并 计算 出 x 的 平均 数 、 中 位 数 、 众 数 、 变 异 数 、 标 准 偏差 、 全 距 、 最 大 值 、 
最 小 值 、 第 1 个 四 分 位 数 、 第 3 个 四 分 位 数 等 各 项 统计 值 。 

注 : rnorm () 函数 的 第 一 个 参数 是 表示 产生 100 个 数据 。 

参考 实例 ch16-44 绘制 上 题 中 x 的 直方 图 并 加 上 密度 图 。 

使 用 summary () 函数 以 了 解 前 题 中 的 向 量 x 的 各 项 汇总 统计 并 绘制 其 箱 形 图 。 

以 y«-rehisq (100, df=8 ) 产生 包含 100 个 自由 度 为 8， 卡 方 分 布 的 随机 数 向 量 y， 并 重复 前 面 
三 题 的 操作 ， 求 取 各 项 统计 值 、 绘 制 直方 图 加 密度 图 、 调 用 summary O 函数 并 绘制 箱 形 图 。 
求 上 述 题目 所 产生 的 x 与 y 两 向 量 间 的 线性 相关 系数 。 


353 


MEMO 














356 


R 语言 一 一 迈 向 大 数据 之 路 


所 谓 的 正 态 分 布 ( Normal Distribution) 又 称 高 斯 分 布 ( Gaussian Distribution )， 许 多 统计 学 的 
理论 都 是 假设 所 使 用 的 数据 是 正 态 分 布 ， 这 也 是 本 章 的 主题 。 

数据 分 析 师 ( Data Analyst ) 或 大 数据 工程 师 ( Big Data Engineer ) 在 研究 数据 时 ， 首 先 要 做 的 
是 确定 数据 是 否 合理 ?也 就 是 要 求 数据 是 正 态 分 布 ， 接 下 来 我 们 将 举 一 系 列 实例 作 说 明 。 


(FAS 用 直方 图 检验 crabs 对 象 


检验 数据 是 否 符合 正 态 分 布 ， 很 简单 的 方法 是 我 们 可 以 用 histogram O 函数 将 数据 导入 ， 直 
接 了 解数 据 的 分 布 从 而 作 推 新。 由 于 这 个 函数 是 在 扩展 包 lattice 内 ， 所 以 使 用 前 须 先 加 载 。 


> library(lattice) 
> 


在 前 面 章节 我 们 已 经 多 次 使 用 了 这 个 对 象 crabs， 本 小 节 笔者 将 用 该 对 象 的 CW 字段 ( 甲壳 宽 
JE ) 为 例 作 说 明 。 
实例 ch17_1 : 使 用 histogram () 函数 绘 出 crabs 对 象 CW (BERE HI ER RE ) 的 直方 图 。 


> histogram(crabs$COW) 
> 


[ 执行 结果 ] 





Percent of Total 














crabsSCW 
由 上 图 判断 crabs $ CW 数据 是 否 为 正 态 分 布 ? 可 能 不 同 的 数据 分 析 师 有 不 同 的 看 法 ， 不 过 没 
关系 ， 因 为 接 下 来 笔者 还 会 介绍 如 何 直接 用 数据 作 检验 。 不 过 笔者 在 此 还 是 先 下 结论 ， 上 述 数据 
是 服从 正 态 分 布 的 。 其 实 我 们 也 可 以 使 用 crabs 对 象 的 sex 字段 ， 将 公 的 螃 仍 和 母 的 螃 稻 分 开 检 验 
其 CW 数据 ， 从 而 了 解 其 是 否 符合 正 态 分 布 。 
实例 ch17_2 : 绘 出 公 螃 蟹 和 母 螃蟹 CW 数据 的 直方 图 。 


> histogram(~CW | sex, data = crabs) 
- 
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[执行 结果 ] 





Percent of Total 














cw 


在 上 述 histogram () 函数 中 ,我 们 在 第 1 个 参数 中 使 用 了 如 下 公式 。 
~CW | sex 
~ : 左边 没有 数据 ， 右 边 有 下 列 两 个 数据 。 
口 CW : 绘图 是 使 用 CW 变量 的 数据 。 
O sex: 这 是 一 个 因子 变量 , 了 表示 母 螃蟹 ，M RRA. 
sex 参数 左边 有 “I"， 这 是 统计 学 符号 ， 表示“ 基于 …… 条 件 ”， 由 此 可 以 分 开 处 理 公 螃 蟹 和 
母 螃 蟹 的 数据 。 得 到 上 述 结 果 后 ， 笔 者 在 此 还 是 先 下 结论 ， 上 述 两 个 数据 均 服从 正 态 分 布 假设 。 


(ASA 用 直方 图 检验 beaver2 对 象 


beaver2 这 组 数据 是 美国 威斯康星 州 的 生物 学 家 Reynolds 在 1990 年 11 月 3 日 和 4 日 2 天 每 
隔 10 分 钟 记录 一 次 海 狸 ( Beaver) 的 体温 所 得 的 数据 ， 同 时 他 还 记录 当时 的 海 狸 是 否 属于 活跃 
(active) 状态 ， 以 下 是 这 个 对 象 的 数据 。 
> str(beaver2) 
'data.frame': 100 obs. of 4 variables: 
$ day : num 307 307 307 307 307 307 307 307 307 307 ... 
$ time : num 930 940 950 1000 1010 1020 1030 1040 1050 1100 ... 
$ temp : num 36.6 36.7 36.9 37.1 37.2 ... 
$ activ: nm 090000000090 ... 
> head(beaver2) 
day time temp activ 
1 307 930 36.58 
2 307 940 36.73 
3 307 950 36.93 
4 307 1000 37.15 
5 307 1010 37.23 
6 307 1020 37.24 





357 


358 


R 语言 一 一 迈 向 大 数据 之 路 


上 述 temp 字段 记录 的 是 海 狸 的 体温 ，activ 字段 记录 的 是 海 猩 是 否 处 于 活跃 状态 ，! 表示 
“是 "，0 表示 “ 否 ”。 
实例 ch17_3 : 使 用 histogram () 函数 绘 出 beaver2 对 象 海 狸 体温 temp 的 直方 图 。 


> histogram(beaver2$temp) 
> 


[执行 结果 ] 











由 上 述 结果 可 以 发 现 数据 的 高 峰 有 两 块 ， 同 时 中 位 部 分 往 下 凹 ， 笔 者 在 此 还 是 先 下 结论 ， 上 
述 海 狸 数 据 与 正 态 分 布 相 比 有 较 大 的 偏差 。 但 是 在 上 述 数 据 中 部 分 海 猩 是 属 活跃 状态 ， 部 分 是 属 
非 活跃 状态 ， 接 下 来 我 们 分 开 处 理 这 两 种 状态 的 海 狸 。 


实例 ch17_4 : 绘 出 活跃 和 不 活跃 海 狸 体温 temp 数据 的 直方 图 。 


> histogram(~temp | factor(activ), data = beaver2) 
> 


[执行 结果 ] 


365 — 370 35 380 385 
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与 实例 ch17_2 相同 的 是 ， 笔 者 在 histogram () 函数 的 第 一 个 参数 ， 输 入 了 一 个 如 下 公式 。 

~temp | factor ( activ ) 

由 于 在 beaver2 对 象 内 activ 是 一 个 数值 向 量 ， 所 以 笔者 使 用 factor O 函数 将 activ 对 象 转 成 因 
子 。 当 然 若 是 由 上 图 看 来 ， 活 跃 的 海 狸 体温 数据 和 不 活跃 的 海 狸 体温 数据 是 不 拒绝 服从 正 态 分 布 
假设 的 。 


用 QQ 图 检验 数据 是 否 服从 正 态 分 布 


R 语言 提供 的 qqnorm O 函数 可 以 绘制 QQ 图 ,我 们 可 以 用 所 绘制 的 图 是 否 呈 现 一 直线 判断 其 
是 否 正 态 分 布 。 另 外 ，R 语言 还 提供 了 一 个 qqline O 函数 ， 这 个 函数 会 在 QQ 图 中 绘 一 条 直线 ， 
如 果 QQ 图 的 点 越 接近 这 条 直线 ， 则 表示 数据 越 接近 正 态 分 布 。 
实例 ch17_5 : 使 用 qqnorm () 函数 绘 出 crabs 对 象 CW ( 螃蟹 甲 过 宽度 ) 的 QQ 图 ， 然后 判断 是 否 
其 服从 正 态 分 布 


> qqnorm(crabs$ON, main = "QQ for Crabs") 





> 
[执行 结果 ] 
QQ for Crabs 
o o 
o 8 
9 
三 
E 
[s] 
2 
R8 
Lj 
o 
& 4, oc 








Theoretical Quantiles 
由 上 图 可 以 发 现 ， 数 据 趋 近 直线 ， 所 以 上 述 数据 是 服从 正 态 分 布 的 。 接 下 来 我 们 可 以 使 用 
qqline O 为 上 述 QQ 图 增加 一 条 直线 ， 再 观察 结果 。 
实例 ch17_6 : 使 用 qqline O 函数 为 实例 ch17 5 的 结果 增加 直线 ， 再 判断 其 是 否 服从 正 态 分 布 。 


> qqline(crabs$CW) 
> 
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[执行 结果 ] 
QQ for Crabs 

e o 2 
vo I] 
z 
à S 
E i 
eB 3 
5 

8 

o 
-3 -2 -1 0 1 2 3 


Theoretical Quantiles 


由 上 述 执行 结果 可 以 看 到 QQ 图 的 确 是 非常 趋 进 一 条 直线 ， 所 以 更 加 确定 上 述 数据 是 服从 正 
态 分 布 的 。 接 下 来 我 们 看 看 海 狸 的 实例 。 
实例 ch17_7 : 使 用 qqnorm () 函数 绘 出 beaver2 对 象 中 海 狸 体温 temp 的 QQ 图 ， 再 判断 其 是 否 服 
从 正 态 分 布 。 


> qqnorm(beaver2$temp, main = "QQ for Beaver") 





QQ for Beaver 





Sample Quantiles 
37.0 375 380 
L 1 
N 
o 








Theoretical Quantiles 


由 上 图 可 以 发 现 ， 数 据 没 有 趋 近 直线 ， 所 以 上 述 数据 是 不 服从 正 态 分 布 的 。 接 下 来 我 们 可 以 
使 用 qqline () 为 上 述 QQ 图 增加 一 条 直线 ， 再 观察 结果 。 
实例 ch17_8 : 使 用 qqline () 函数 为 实例 ch17_7 的 结果 增加 直线 ， 再 判断 其 是 否 服从 正 态 分 布 。 





> qqline(beaver2$temp) 


- 
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[执行 结果 ] 
QQ for Beaver 





Sample Quantiles 
37.0 37.5 38.0 








Theoretical Quantiles 


由 上 图 可 以 发 现 ， 上 述 数 据 偏离 直线 许多 ， 所 以 更 加 确定 上 述 海 狸 体温 的 数据 是 不 服从 正 态 
分 布 的 。 


shapiro.test () 函数 


前 2 节 笔 者 使 用 了 直方 图 显示 了 数据 的 分 布 ， 最 后 判断 数据 是 否 呈 现 正 态 分 布 难免 受到 主客 
观 因素 的 干扰 ， 因 此 我 们 可 能 需 使 用 更 客观 的 方法 来 检验 数据 是 否 服从 正 态 分 布 ， 一 般 最 广泛 使 
用 的 是 本 节 所 要 介绍 的 Shapiro- Wilk 检验 ， 这 个 方法 非常 容易 ， 只 要 将 要 检验 的 数据 当 作 shapiro. 
test () 函数 的 参数 即 可 。 
实例 ch17_9 : 使 用 shapiro.test O 检验 crabs 对 象 的 CW ( 甲壳 宽度 ) 数据 是 否 服从 正 态 分 布 。 


> nortestl <- Shapiro.testCcrabsSCW) 
> str(nortest1) 
List of 4 
$ statistic: Named num 0.991 
..- attr(*, "names")s- chr "Ww" 
$ p.value : num 0.254 
$ method  : chr "Shapiro-Wilk normality test" 
$ data.name: chr “crabsSCW” 
- attr(*, "class")- chr "htest" 
> 


上 述 R 将 传 回 一 个 串 行 (List ) 对 象 ， 所 以 笔者 使 用 sr O 函数 列 出 结果 对 象 ， 当 然 对 于 上 述 
传 回 的 串 行 数据 最 重要 的 元 素 是 p-value， 所 以 下 列 笔者 单独 列 出 其 值 。 


> nortestl$p.value 
[1] 0.2541548 
> 





p-value 主要 是 反映 数据 样本 服从 正 态 分 布 的 概率 ， 值 越 小 概率 越 小 ， 通 常用 0.05 做 临界 标 
准 ， 如 果 值 大 于 0.05 ( 此 例 是 0.2541548 )， 表 示 此 数据 服从 正 态 分 布 的 。 
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实例 ch17_10 : 使 用 shapiro.test () 检验 crabs Xf g rp ZB EAEE CW (甲壳 宽度 ) 数据 是 
和 否 服从 正 态 分 布 。 


> nortest2 <- with(crabs, tapply(OW, sex, shapiro.test)) 
» str(nortest2) 
List of 2 
$ F:List of 4 
..$ statistic: Named num 0.988 
.. ..- Ottr(*, "names")e chr "W" 
..$ p.value : num 0.526 
..$ method  : chr "Shapiro-Wilk normality test" 
..$ data.name: chr "X[[i]]" 
..- üttr(*, "class")s chr "htest" 
$ M:List of 4 
..$ statistic: Named num 0.983 
. £7 Ottr(*, "names")e chr "W" 
..$ p.value : num 0.237 
..$ method  : chr "Shapiro-Wilk normality test" 
-.$ data.name: chr "X[[i]]" 
..- Gttr(*, "class")s chr "htest" 
- attr(*, "dim")- int 2 
- attr(*, "dimnames")-List of 1 
e$: chr [1:2] "F" "M" 
> 


上 述 传 回 的 串 行内 又 有 两 个 串 行 ， 我 们 可 以 使 用 下 列 方法 了 解 个 别 的 p-value 值 。 


> nortest2$F$p.value $G58tRESp. valuet& 
[1] 0.5256088 
» nortest2$M$p.value #2 Eip. valuet& 
[1] 0.2368288 


> 


由 上 述 数据 可 以 得 到 ，p.value C 母 螃蟹 ) 和 p.value CASE). 的 值 均 远大 于 0.05， 所 以 crabs 
对 象 的 公 螃 仍 和 母 螃 蟹 的 CW ( 甲壳 宽度 ) 数据 是 服从 正 态 分 布 的 。 


实例 ch17_11 : 使 用 shapiro.test () 检验 beaver2 对 象 的 temp. ( 海 狸 体温 ) 数据 是 否 服从 正 态 分 布 。 


> nortest3 «- shapiro.test(beaver2$temp) 
» nortest3$p.value 

[1] 7.763623e-05 

> 


由 于 最 后 p.value 值 小 于 0.05， 表 示 此 数据 不 服从 正 态 分 布 的 。 


实例 ch17_12 : 使 用 shapiro.test () 检验 beaver2 对 象 ， 了 解 活 跃 海 狸 和 不 活跃 海 狸 的 temp ( 海 狸 
体温 ) 数据 是 否 服从 正 态 分 布 。 


> nortest4 <- with(beaver2, tapply(temp, activ, shapiro.test)) 
> nortest4$ 0 $p.value 

[1] 0.1231222 

> nortest4$' 1'$p.value 

[1] 0.5582682 

- 


由 于 最 后 不 论 是 活跃 的 还 是 不 活跃 的 海 狸 的 p-value 值 均 大 于 0.05， 表 示 两 个 数据 均 服 从 正 态 
分 布 。 
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本 章 习题 


一 、 判 断 题 

( ) 1. 我们 可 以 用 histogram () 函数 将 数据 导入 ， 直 接 了 解数 据 的 分 布 从 而 作 推 新 。 由 于 这 
个 函数 是 在 扩展 包 lattice 内 ， 所 以 使 用 前 先 以 library (lattice ) 加 载 。 

( )2. histogram () 函数 已 经 在 R 的 基本 设 定 中 ， 因 此 不 需要 加 载 任何 扩展 包 ， 可 以 直接 执 
行 ， 不 会 有 任何 错误 信息 。 

( )3. shapiro.test () 函数 已 经 在 R 的 基本 设 定 中 ， 因 此 不 需要 加 载 任何 扩展 包 ， 可 以 直接 
执行 检测 ， 不 会 有 任何 错误 信息 。 

( ””) 4， 我 们 想 要 数据 框 x 中 的 数值 变量 y 在 不 同 的 因子 变量 sex 下 分 别 检 验 其 y 数据 ， 了 解 其 是 
否 符 合 正 态 分 布 。 在 我 们 已 经 加 载 了 相关 的 扩展 包 后 ， 可 以 使 用 以 下 代码 来 完成 检测 。 
> histogram( ~ y | sex, data-x) 


(25. 我 们 可 以 仅 使 用 qqnorm O 函数 绘制 出 以 下 的 统计 图 。 
QQ for Crabs 





Sample Quantiles 





T T T T 
3 -2 -1 0 1 2 3 


Theoretical Quantiles 


( )6 以 下 的 QQ 图 可 以 看 出 Beaver 变量 大 致 是 服从 正 态 分 布 的 。 
QQ for Beaver 





Sample Quantiles 
37.0 375 380 











Theoretical Quantiles 
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EA 


我 们 使 用 了 shapiro (x) 函数 对 数值 变量 x 进行 检测 ， 结 果 x $p.value 的 数值 为 
0.12。 表 示 有 很 强 的 证 据 显示 x 符合 正 态 分 布 。 


二 、 单 选 题 


以 下 哪 种 函数 在 使 用 前 必须 加 载 扩展 包 才 能 够 顺利 执行 ， 否 则 会 产生 错误 信息 。 
A. histogram () 

B. shapiro.test () 

C. qqnorm () 

D. qqline () 


我 们 想 要 数据 框 x 中 的 数值 变量 y 在 不 同 的 因子 变量 sex 下 分 别 检验 其 y 数据 ， 从 而 


了 解 其 是 否 符 合 正 态 分 布 。 我 们 已 经 加 载 了 相关 的 扩展 包 后 ， 可 以 使 用 以 下 哪 一 个 
histogram () 函数 来 正确 完成 检测 ? 

A. > histogram( ~ y | sex, data=x) 

B. » histogram(y | sex, data-x) 

C. » histogram( x$y | sex) 

D. > histogram( ~ y | sex) 


.以 下 的 统计 图 是 使 用 以 下 哪 一 个 函数 所 绘制 得 到 的 ? 


Percent of Total 











A. histogram () 
B. qqline () 

C. boxplot () 
D. plot () 


( 


) 4. 
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以 下 的 统计 图 是 使 用 以 下 哪 一 个 函数 所 绘制 得 到 的 ? 





QQ for Crabs 
"EJ 
wm 98 
E] 
à 3 
$ g 
£8 
E] 
& oo 
o 
3 2 4 0 1 2 3 
Theoretical Quantiles 
A. qqline () B. qqnorm () C. qqpoints () D. histogram () 


.我 们 使 用 了 shapiro.test (x) 函数 对 数值 变量 x 进行 检测 ， 以 下 哪 一 个 x $ p-value 数 


值 结 果 。 表 示 有 很 强 的 证 据 显示 x 不 符合 正 态 分 布 。 

A. 0.12 B. 0.58 C. 0.001 D. 0.95 

我 们 使 用 了 shapiro.test () 分 别 对 nortest2 $ F 与 nortest2 $ M 进行 了 检测 ， 得 到 如 下 
的 结果 。 以 下 结论 哪 一 个 是 正确 的 ? 

> nortest2$F$p.value 

[1] 9.5256088 

> nortest2$MSp.value 

[1] 0.0068288 

A. nortest2 $F 5j nortest2 $ M 均 符 合 正 态 分 布 

B. nortest2 $ F 与 nortest2 $ M 均 不 符合 正 态 分 布 

C. nortest2 $ F 不 符合 正 态 分 布 而 nortest2 $ M 符合 正 态 分 布 

D. nortest2 $ F 符合 正 态 分 布 而 nortest2 $ M 不 符合 正 态 分 布 

以 下 是 在 不 同 的 条 件 下 temp 变量 的 直方 图 ， 它 们 是 由 以 下 哪 一 个 绘图 函数 所 绘制 出 
来 的 ? 














Percent of Total 
o è Li 8 è 
L L " 1 L 
F- lh 
T T T T T i 
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( 


A. qqplot () B. histogram () 
C. barplot () D. polygon 
三 、 多 选 题 

) 1， 以 下 哪 几 种 函数 可 以 将 数据 导入 ， 且 不 需要 加 载 扩展 包 ， 直 接 了 解数 据 的 分 布 从 而 作 
推断 ? (选择 3 项 ) 
A. hist () B. qqnorm () 
C. shapiro.test () D. dotplot () 
E. histogram () 

)2. 以 下 哪 几 种 函数 可 以 用 来 检测 数值 数据 是 否 为 正 态 分 布 ? ( 选择 3 项 ) 


A. histogram () B. qqnorm () 
C. shapiro.test () D. boxplot () 
E. dotchart () 


四 、 实 际 操作 题 ( 如 果 题目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 

使 用 histogram () 函数 绘制 crabs 数据 框 的 FL 变量 的 直方 图 ; 并 使 用 sex 因子 变量 作为 条 件 
变量 再 绘制 直方 图 ， 并 解说 你 所 得 到 的 结果 。 

使 用 qqnorm O) 与 qqline O 函数 绘制 crabs 数据 框 的 FL 变量 的 QQ 图 ， 并 解说 你 所 得 到 的 结 
Æ ; 再 使 用 shapiro.test () 检测 crabs $ FL 变量 是 否 符 合 正 态 分 布 。 


下 


2. 
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分 类 数据 的 图 


形 描述 





在 进行 数据 分 析 时 ， 如 果 能 够 有 相关 的 图 形 做 辅助 ， 更 能 使 分 析 令 人 印象 深刻 。 分 类 ( 质 
化 ) 数据 的 描述 绘图 ， 相 对 比较 简单 ， 使 用 柱 形 图 ( Barplot ) 或 圆 饼 图 ( Pie Chart )， 均 可 以 直观 
地 进行 各 个 类 别 间 次 数 或 者 量化 多 寡 的 比较 。 之 前 我 们 使 用 table O 函数 已 经 能 够 以 汇总 表 的 方 
式 呈 现 ， 在 此 我 们 以 两 种 统计 图 的 方式 来 呈现 各 类 别 数据 间 的 相互 比较 。 


18-1-1 


条 形 图 与 barplot O 函数 


条 形 图 又 可 分 为 垂直 条 形 图 与 水 平 条 形 图 ， 主 要 是 用 来 标示 某 变量 的 数据 变化 ， 我 们 可 以 使 
用 barplot () 函数 轻易 完成 此 项 工作 。 有 关于 barplot O 绘图 函数 的 使 用 格式 如 下 所 示 。 
barplot ( height, width = 1, space = NULL, horiz = FALSE, 


O height : 
O width : 


Dl space : 


O horiz: 


xlim = NULL, ylim = NULL, legend.text = NULL, 
main = NULL, xlab = NULL, ylab = NULL ) 

绘图 的 对 象 ， 可 以 为 向 量 或 者 矩阵 ， 提 供 形 的 高 度 值 。 

直方 图 中 每 一 形 的 宽度 。 

直方 图 中 两 相 邻 形 的 间隔 。 

逻辑 值 ; 默认 为 FALSE， 绘 制 的 是 直立 式 ， 若 为 TRUE 则 绘制 水 平 式 。 





口 legend.text : 一 个 作为 图 例 说 明 的 文字 向 量 。 
口 main, sub : 绘图 的 标题 文字 及 副标题 文字 。 
口 xlab , ylab : x 轴 及 y 轴 的 标签 。 
口 xlim, ylim : x 轴 及 y 轴 的 数值 界限 。 

其 他 参数 及 说 明 请 使 用 “ ?barplot” 查 询 。 


实例 ch18_1 : 使 用 barplot O 函数 绘制 出 islands 数据 中 前 5 大 岛屿 的 面积 垂直 条 形 图 ， 





建立 前 5 大 岛屿 的 面积 向 量 。 


> big.islands «- head(sort(islands, decreasing = TRUE), 5) 
- 


以 下 是 验证 big.islands 向 量 对 象 的 内 容 。 


> big. 


> 


islands 
Asia Africa North America South America Antarctica 
16988 11506 9390 6795 5500 


以 下 是 绘制 垂直 条 形 图 的 程序 代码 。 
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> barplot(big.islands, width = 1, space = 0.2, main - "Land area of islands") 
> 


[执行 结果 ] 


Land area of islands 


South America 


10000 15000 


5000 


可 以 看 到 部 分 岛屿 的 名 称 未 显示 ， 加 大 宽度 即 可 显示 ， 如 下 图 所 示 。 
Land area of islands 


o inea. 


North America South America 


10000 15000 


5000 


实例 ch18_2 : 建立 一 个 血型 数据 向 量 ， 同 时 依据 此 血型 数据 绘 出 条 形 图 。 


以 下 是 建立 此 血型 数据 向 量 以 及 给 此 数据 向 量 的 各 元 素 命名 。 
> blood.info «- c(23, 40, 38, 12) 

> names(blood.info) <- c("A", "B", "O", "AB") 

> 

以 下 是 验证 此 向 量 数据 。 


> blood.info 
A B OAB 
23 40 38 12 


以 下 是 建立 水 平 条 形 图 。 
> barplot(blood.info, horiz = TRUE, width = 1, space = 0.2, legend.text = names 


Cblood.info), main = "Blood Statistics") 
- 
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[执行 结果 ] 


Blood Statistics 


AB 





上 述 代 码 中 的 参数 “horiz = TRUE", 表示 建立 水 平 条 形 图 ,“legend.text” 参 数 表 示 建 立 图 例 。 
实例 ch18_3 : 在 第 16 章 的 16-1-2 节 我 们 已 经 建立 了 一 个 stateUSA 的 数据 框 ， 我 们 先 用 region 
字段 建立 一 个 表格 ， 再 利用 barplot () 函数 为 这 个 表格 建立 条 形 图 。 这 样 就 可 以 建立 ， 美 国 各 区 

(region ) 的 州 数量 的 条 形 图 。 
下 列 是 为 stateUSA 数据 框 对 象 的 region 字段 建立 一 个 表格 state.table 的 代码 。 


> state.table <- table(stateUSASregion) 
> 


下 列 是 验证 state.table 表格 内 容 的 代码 。 


> state.table 
Northeast South North Central West 
9 16 12 13 
> 
下 列 是 建立 条 形 图 的 代码 。 


> barplot(state.table, xlab = "Region", ylab = "Population", col = "Green") 


- 


Northeast South North Central West 


[ 执行 结果 ] 


15 


Population 
10 


5 





Region 
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在 上 述 建 立 条 形 图 的 过 程 中 , 我 们 建立 了 x 和 y 轴 的 标签 , 同时 也 将 条 形 图 的 颜色 设 为 绿色 。 
18-1-2 WHH] pie O 函数 


圆 饼 图 (也 称 圆 瓣 图 ) 适合 表示 于 分 类 数据 中 各 个 不 同类 别 的 数据 占 总 数 的 比例 ， 因 此 可 以 
说 是 分 类 数据 下 相对 次 数 分 布 表 的 图 示 。 在 圆 饼 中 显示 所 有 类 别 及 各 类 实际 出 现 的 相对 次 数 或 比 
例 ， 以 面积 表达 相对 差异 。 面 积 大 小 的 比例 计算 即 化 为 角度 大 小 的 比例 ， 可 以 使 用 (360 度 )* 
(所 占 百分比 ) 得 到 。 有 关于 pie O 绘图 函数 的 使 用 格式 如 下 所 示 。 
pie (x, labels = names ( x ) , radius = 0.8, 
clockwise = FALSE, main = NULL, ... ) 
口 x : 一 个 非 负 值 向 量 ， 作 为 圆 饼 图 每 一 部 分 面积 大 小 的 比例 。 
Q labels : 一 个 文字 向 量 ， 作 为 圆 饼 图 每 一 部 分 的 名 称 说 明 。 
O radius : 圆 饼 图 的 半径 长 度 ， 数 值 在 -1 与 1 之 间 ， 超 过 1 时 会 有 部 分 图 被 切割 。 
O clockwise : 逻辑 值 ， 表 示 将 所 给 数值 按 顺 时 针 或 逆 时 针 绘 图 。 
O col: 一 组 向 量 ， 表 示 圆 饼 图 每 一 部 分 的 颜色 。 
O main : 圆 饼 图 的 标题 文字 。 
其 他 参数 及 说 明 请 使 用 “?pie” 查 询 。 
实例 ch18_4 : 重新 设 实例 ch18_1， 使 用 pie O 函数 ， 依 据 big.islands 数据 C 实例 ch18_1 所 建 )， 
绘制 出 前 5 大 岛屿 的 面积 圆 饼 图 。 


> pie(big.islands, main =“Land area of islands") 
> 


[执行 结果 ] 
Land area of islands 
Asia 
Africa 
Antarctica 
North America South America 


实例 ch18_5 : 重新 设计 实例 ch18_2， 建 立 一 个 血型 数据 向 量 ， 同 时 依 此 血型 数据 绘 出 圆 饼 图 ， 
所 有 数据 均 使 用 实例 ch18_2 所 建 的 数据 。 
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> pie(blood.info, main = "Blood Statistics") 


Blood Statistics 


O 
实例 ch18 6 : 重新 设计 实例 ch18_3， 使 用 pie O 函数 为 美国 各 区 (region ) 的 州 数量 建立 圆 饼 
图 ， 同 时 设 定 每 个 数据 对 应 区 域 的 颜色 。 


> pie(state.table, col = c("Yellow", "Green", "Gray", "Red")) 
> 


Northeast 





North Central 


EA 量化 数据 的 图 形 描述 


一 般 常 见 的 单 变量 量化 数据 的 统计 图 形 有 点 图 ( Dotchart )、 直 方 图 (Histogram )、 箱 形 图 
( Boxplot )， 等 等 。 它 们 都 能 够 清楚 地 表达 数据 的 分 布 情况 。 以 下 将 分 别 使 用 Dotchart, Hist 与 
Boxplot 来 描述 量化 数据 。 

绘图 函数 内 部 的 参数 ， 例 如 , xlim, ylim, xlab, ylab 以 及 main 均 已 经 在 上 一 节 分 类 数据 绘 区 
函数 barplot © 中 说 明 ， 它 们 的 使 用 方法 均 是 一 样 的 ， 因 此 在 此 也 就 不 加 以 缆 述 了 。 
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18-2-1 点 图 与 dotchart O 函数 


R 中 的 点 图 是 使 用 dotehart O 函数 来 绘制 的 。 水 平 轴 是 用 来 表示 数值 出 现 的 次 数 ， 垂 直 轴 则 
是 用 来 表示 数值 数据 变量 值 的 范围 ， 每 一 个 点 代表 某 一 个 数值 出 现 了 几 次 。 所 以 由 点 图 就 能 够 了 解 
数据 实际 出 现在 那些 数值 即 隐 含 的 分 配 情形 ， 也 能 够 迅速 地 得 到 数值 数据 的 众 数 。 有 关于 pie () 绘 
图 函数 的 使 用 格式 如 下 所 示 。 
dotchart ( x, labels = NULL, groups = NULL, gdata = NULL, 
cex = par ( "cex" ) , pch = 21, gpch = 21, bg = par ( "bg" ) , 
color = par ( "fg" ) , gcolor = par ( “fg” ) , lcolor =” gray" , 
xlim = range ( x[is.finite (x) ] ) , 
main = NULL, xlab = NULL, ylab = NULL, ... ) 
O x: 可 以 是 向 量 或 者 矩阵 ( 使 用 行 )。 
口 labels : 数据 的 标签 。 
O groups : 列 出 数据 如 何 分 组 ， 若 为 矩阵 ， 则 以 列 ( Column) 进行 分 组 。 
口 gdata : 标示 出 使 用 什么 样 的 统计 方式 作为 绘图 的 依据 。 
口 cex : 绘图 字符 的 大 小 。 
O pch: 绘图 字符 ， 默 认 是 19， 代 表 空 心 圆 。 
口 gpch : 不 同 的 分 组 分 别 使 用 什么 字符 绘图 。 
口 bg : 背景 颜色 。 
Q color : 标签 与 绘图 点 的 颜色 。 
口 gcolor : 分 组 标签 与 值 的 颜色 。 
O kolor : 绘制 的 水 平 线 的 颜色 。 
其 他 参数 及 说 明 请 使 用 “ ?dotchart” 查 询 。 
实例 ch18_7 : 使 用 dotchart O 函数 ， 绘 出 美国 人 口 最 少 的 5 个 州 的 数据 的 点 图 ， 程 序 代码 如 下 
所 示 。 


> state.po <- state.x77[, 1] 3848-9 PLA DULCES IE 
> small.st <- head(sort(state.po), 5) # 取 得 人 口 最 少 的 5 个 州 数据 


> 


下 列 是 验证 small.st 对 象 的 数据 内 容 的 。 


> small.st 
Alaska Wyoming Vermont Delaware Nevada 
365 376 472 579 590 
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下 列 是 建立 点 图 的 程序 代码 。 
> dotchart(small.st) 





Nevada o 
Delaware o 
Vermont o 

Wyoming o 


Alaska o 








ER 中 有 一 个 系统 内 建 的 矩阵 VADeaths 对 象 ， 这 个 对 象 记录 了 1940 年 美国 Virginia 州 每 
1000 人 的 死亡 率 ， 其 中 年 龄 层 的 划分 为 50 ~ 54、55 ~ 59、60 ~ 64, 65 ~ 69, 70 ~ 74。 同 时 
区 分 乡村 (Rural) 男性 与 女性 ， 城 市 (Urban) 男性 和 女性 。 下 列 是 了 解 其 结构 的 程序 代码 。 


> str(VADeaths) 
num [1:5, 1:4] 11.7 18.1 26.9 41 66 8.7 11.7 20.3 30.9 54.3 ... 
- attr(*, "dimnames")-List of 2 
e$ : chr [1:5] "50-54" "55-59" "60-64" "65-69" ... 
«e$ : chr [1:4] "Rural Male" "Rural Female" "Urban Male" "Urban Female" 
> 


下 列 是 列 出 VADeaths 内 容 的 程序 代码 。 


> VADeaths 

Rural Male Rural Female Urban Male Urban Female 
50-54 11.7 8.7 15.4 8.4 
55-59 18.1 11.7 24.3 13.6 
60-64 26.9 20.3 37.0 19.3 
65-69 41.0 30.9 54.6 35.1 
70-74 66.0 54.3 71.1 50.0 


> 
实例 ch18_8 : 使 用 dotchart O 函数 绘 出 系统 内 部 对 象 VADeaths 的 点 图 。 


> dotchart(VADeaths, main = "Death Rates in Virginia(1940)") 
> 


[执行 结果 ] 


Rural dü 
Rural E 
Urban "Ey 
Urban T 
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Death Rates in Virginia(1940) 














T T T T T T T 
10 20 30 40 50 60 70 


适度 增加 高 度 ， 可 以 得 到 下 图 的 结果 。 


上 述 dotchart () 函数 ， 通 过 设 定 参数 pch 可 设 定点 的 形状 ,默认 是 “pch = 19” 代 表 空 心 圆 ， 


Rural Male 


70-74 


70-74 


其 他 几 个 常用 的 数值 及 意义 如 下 所 示 。 


pch=19 : 
pch 2 20 : 
pch=21 : 
peh=22 : 


实心 圆 。 


Death Rates in Virginia(1940) 














T T T T T T T 
10 20 30 40 50 60 70 


项 目 符号 ， 小 一 点 的 实心 圆 ( 约 2/3 大 小 )。 


空心 圆 。 
空心 正方 形 。 
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pch = 23 : 空心 菱形 。 
pch = 24 : 空心 箭头 向 上 的 三 角形 。 
pch = 25 : 空心 箭头 向 下 的 三 角形 。 
此 外 通过 xlim 参数 可 以 设 定 x 轴 的 区 间 大 小 。 
实例 ch18 9 : 设 定 x 轴 的 区 间 为 0 至 100 岁 ， 并 且 设 定点 的 形状 是 蓝 色 萎 形 。 


> dotchart(VADeaths, main = "Death Rates in Virginia(1940", xlim = c(0, 100), 
pch = 23, col - "Blue") 


Death Rates in Virginia(1940) 





Rural Male 
70-74 


65-69 o 
60-64 9 
55-59 o 

50-54 o 


Rural Female 
70-74 
65-69 o 
60-64 9 
55-59 o 
50-54 o 


Urban Male 
70- 








18-2-2 绘图 函数 plot © 


plot () 函数 其 实 是 一 个 通用 函数 ， 它 会 依据 所 输入 的 对 象 ， 自 行 分 配 适 当 的 绘图 函数 执行 所 
需要 的 任务 。 此 函数 可 绘制 两 数值 变量 的 散 点 图 ( Scatter plot )， 可 以 从 中 观察 出 两 数值 变量 间 的 
线性 相关 性 。 当 然 plot O 也 被 用 来 绘制 table, factor 以 及 ts 等 对 象 的 统计 图 ， 只 是 应 用 于 不 同 的 
对 象 时 所 定义 出 来 的 图 形 也 会 有 所 不 同 。 我 们 先 来 介绍 plot O 函数 的 语法 与 所 需要 的 参数 ， 并 实 
际 举 出 各 种 不 同 对 象 的 实例 来 加 以 说 明 其 应 用 。 有 关于 plot O 绘图 函数 的 使 用 格式 如 下 所 示 。 

plot (x, y, ...) 
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口 x : x 数 值 向 量 数据 ， 不 同 的 对 象 可 以 绘制 出 不 同 的 结果 。 

口 y : y 数 值 向 量 数据 ， 视 x 有 无 情况 而 定 。 

O type: 绘图 的 形式 。“p” 为 点 ; “1” 为 线 ;“b” 为 两 者 ( 点 和 线 ); “c” 为 “b” 中 的 线 部 分 ; 
“o” 为 重 夺 ;“h” 为 垂直 线 图 :“s” 为 阶梯 型 ;“n” 为 不 绘图 。 

口 main, sub, xlab, ylab : 标题 、 次 标题 、x 轴 标 签 y 轴 标 签 。 

口 asp : yx (y 对 比 于 x) 间 的 比值 。 


18-2-2-1 绘制 时 间 数 列 对 象 


我 们 首先 绘制 的 是 时 间 数 列 (ts ) 图 ， 也 就 是 在 图 上 依 时 间 序 列 绘 出 唯一 提供 的 数值 向 量 。 
实例 ch18_10 : 使 用 实例 ch10_25 所 建 的 中 国 台湾 出 生 人 口 的 时 间 数 列 对 象 num.birth， 然 后 利用 
plot O 函数 绘制 只 有 一 个 变量 的 时 间 数 列 图 。 

> plot(num.birth, xlab = "Year", ylab = "Born Population", type = "1", main = 


"type = l -- Default") 
> 


[执行 结果 ] 
type =1-- Default 





300000 


Born Population 
260000 





220000 


1998 2000 2002 2004 2006 


Year 


上 述 参数 “type =”"， 将 直接 影响 所 绘制 图 的 类 型 ,默认 type =“]”"， 表 示 各 点 间 用 直线 连接 ， 
所 以 上 述 实例 车 省 略 参数 “type =” 将 获得 一 样 的 结果 ， 以 下 是 不 同 type 参数 所 获得 的 图 形 ， 请 留 
意 笔 者 在 标题 标注 了 所 用 的 type 类 型 。 

1) type=p: 点 。 

> plot(num.birth, xlab = "Year", ylab = "Born Population", type = "p", main = 

"type = p") 


> 
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300000 


Born Population 
260000 


220000 








1998 2000 2002 2004 2006 


Year 


2) types b : 点 和 线 。 
» plot(num.birth, xlab - "Year", ylab - "Born Population", type - "b", main - 





"type = b") 
> 
type=b 

o 
e 
e 
e 
o 
e 

c 

9 

$8 

2 
o 

e$ & 

£ 

$ o 
eo 
E 
N 
N 








1998 2000 2002 2004 2006 


Year 


3) typez c :“b” 的 线 部 分 。 
> plot(num.birth, xlab = "Year", ylab = “Born Population", type = "c", main = 
"type = c") 


> 
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260000 300000 


Born Population 


220000 








4) type =0 : 重合 “a”“b” 两 种 图 。 


> plot(num.birth, xlab = "Year", ylab = "Born Population", type = "o", main = 
"type = 0") 


> 





type =o 
e 
e 
e 
e 
eo 
8 | 
e 71 
9 
号 有 
2 - 
eo 
Ê R 
c J 
ê o 
e 
g- 
N 
N 








M e 
1998 2000 2002 2004 2006 


Year 


5) type=h : 垂直 线 图 。 


> plot(num.birth, xlab - "Year", ylab =“Born Population", type - "h", main = 
"type - h") 


> 
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type=h 





300000 


Born Population 
260000 


220000 





18-2-2-2 向量 数据 与 plot () 函数 


接 下 来 ， 笔 者 想 用 plot () 函数 绘制 向 量 数据 图 。 
实例 ch18_11 : 以 实例 ch18_7 所 建 的 向 量 数据 state.po 为 例 ， 说 明 如 何 使 用 plot O 函数 ， 绘 制 美 
国人 口 数 最 少 的 5 个 州 的 数据 图 。 


> plot(small.st, xlim = c(0, 6), ylim = c(200, 650), ylab - "Population", main = 
"American Demographics") 














[ 执行 结果 ] 
American Demographics 
87 o oœ 
8 J 
g 5 : 
i8 
$ *| o 9 
8 J 
S al 
N T T T T T T 
0 1 2 3 4 5 6 
Index 


在 上 述 实例 中 ,我 们 设 定 x 轴 的 显示 区 间 是 0 ~ 6， 目 的 是 为 了 接 下 来 有 空间 放置 文字 ，y 轴 
的 显示 区 间 是 200-600 ( 20 万 至 60 万 人 口 )， 也 是 为 了 接 下 来 有 空间 放置 文字 。 我 们 将 y 轴 标 题 
设 为 "Population" , 主 标题 设 为 “American Demographics”。 
实例 ch18_12 : 为 数据 标签 加 上 州 名 。 


> text(small.st, labels = names(small.st), adj = c(0.5, 1)) 
- 
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[执行 结果 ] 


American Demographics 








e 
o 
> DeldwareNeVada 
2 
c © 
$ D Verfhont 
i 
有 chi 
Aldéka Wyoming 
8 
S 
bd T T T T T 
0 1 2 3 4 5 6 
Index 


由 上 述 执行 结果 可 以 看 到 ， 我 们 已 经 成 功 使 用 text O 函数 为 数据 标签 加 上 州 名 称 了 。 另 外 在 
text () 函数 内 ， 参 数 adj 的 作用 主要 是 指出 标签 数据 的 对 齐 方式 。 这 是 一 个 含 两 个 元 素 的 向 量 ， 
它 的 可 能 值 是 0、0.5 和 1， 分 别 表 示 靠 左 / 靠 下 、 中 间 和 靠 右 / 靠 上 对 齐 。 


18-2-2-3 ”数据 框 数据 与 plot () 函数 


在 前 几 章节 笔者 已 经 多 次 使 用 crabs 对 象 ,在 此 我 们 也 继续 使 用 此 对 象 ， 这 是 一 个 数据 框 对 象 。 
实例 ch18_13 : 使 用 plot O 函数 绘制 crabs 对 象 的 FL (前额 叶 长 度 ) 和 CW ( 甲壳 宽度 ) 的 数据 


> plot(crabs$CW, crabs$FL) 
> 














[执行 结果 ] 
o888。 o 
& Ba? 
e 9 
20 30 40 50 


crabsSCW 


由 上 述 图 形 的 趋势 ， 可 以 发 现 螃蟹 的 前 额 叶 长 度 CFL) 较 长 则 甲壳 宽度 也 将 较 宽 ， 前额 叶 长 
E CFL) 较 短 则 甲壳 宽度 也 将 较 守 。 美 国 黄石 国家 公园 (Yellowstone Natural Park ) 有 一 个 著名 的 
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景点 老实 泉 (Old Faithful Geyser )， 它 会 按 固定 时 间 喷 发 温泉 。 在 R 系统 内 有 一 个 数据 集 faithful, 
这 个 数据 集 记录 每 次 温泉 喷发 的 时 间 长 短 (eruptions ) 和 两 次 喷发 之 间 的 时 间 ( waiting )， 两 个 数 
据 的 单位 均 是 分 钟 。 下 列 是 这 个 对 象 的 数据 结构 。 


> str(faithful) 

'data.frame': 272 obs. of 2 variables: 

$ eruptions: num 3.6 1.8 3.33 2.28 4.53 ... 

$ waiting : num 79 54 74 62 85 55 88 85 51 85 ... 
> 


由 以 上 数据 可 以 知道 faithful 对 象 有 两 个 字段 ， 共 有 272 个 行 数据 ， 下 列 是 此 数据 框 的 前 6 个 
行 数据 。 
> head(faithful) 
eruptions waiting 





1 3.600 79 
2 1.800 54 
3 3.333 74 
4 2.283 62 
5 4.533 85 
6 2.883 55 
> 


实例 ch18_14 : 使 用 plot () 函数 绘制 faithful 对 象 的 数据 图 。 同 时 笔者 参考 本 章 的 18-2-1 节 ， 使 
用 “pch = 24” 将 标注 符号 设 为 箭头 朝 上 的 三 角形 ， 同 时 将 此 符号 设 为 绿色 。 


> plot(faithful, pch = 24, col = "Green") 
> 


[ 执行 结果 ] 





waiting 
60 70 80 90 


50 








eruptions 


其 实 也 可 以 设 定 标记 符号 的 背景 色 ， 此 时 可 以 使 用 “bg =” 参 数 ， 以 类 似 “col =” 的 方式 设 
定 符号 的 背景 色 。 
实例 ch18_15 : 重新 设计 实例 ch18_14， 将 标注 符号 设 为 菱形 以 及 红色 背景 。 


> plot(faithful, pch = 23, col - "Green", bg - "Red") 
> 
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[执行 结果 ] 





waiting 
60 70 80 90 


50 








eruptions 


从 上 述 数据 图 的 趋势 可 以 发 现 ， 温 泉 喷 发 时 间 越 短 ， 等 待 时 间 也 越 短 。 若 温泉 喷发 时 间 越 
长 ， 则 等 待 时 间 也 越 长 。 在 设计 图 表 时 ， 可 以 将 不 同 的 数据 区 域 以 不 同 颜色 显示 。 
实例 ch18_16 : 将 温泉 喷发 时 间 在 3 分 钟 之 内 的 数据 以 红色 实心 圆 形 显 示 ， 将 温泉 喷发 时 间 在 4 
分 钟 以 上 的 数据 以 蓝 色 实 心 圆 形 显示 。 

在 设计 这 个 实例 之 前 ,我 们 必须 先 将 温泉 喷发 时 间 大 于 4 分 钟 (long.eru ) 和 小 于 3 分 钟 
( short.eru ) 的 数据 提取 出 来 ， 可 参考 下 列 代码 。 


> long.eru <- with(faithful, faithful[eruptions > 4, ]) 
> short.eru <- with(faithful, faithful[eruptions < 3, J) 
> 


接 下 来 使 用 plot O 函数 绘制 faithful 的 数据 图 ， 然 后 再 用 points. O 函数 标注 符号 的 外 形 和 颜色 。 
> plot(faithful) 

> points(long.eru, pch = 19, col - "Blue") 

> points(short.eru, pch = 19, col - "Red") 

> 


[执行 结果 ] 





waiting 
60 70 80 90 


50 








eruptions 
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18-2-2-4 ”因子 factor 5 plot () 函数 


另外 一 个 常用 的 对 象 格式 是 factor， 如 果 我 们 提供 的 数据 是 原始 的 类 别 ， 并 使 用 了 as.factor O 
函数 ， 则 plot 函数 会 自动 汇总 因子 变量 的 次 数 分 布 ， 并 绘制 成 为 条 形 图 ， 这 对 于 分 类 数据 的 分 析 
与 绘图 也 是 相当 有 帮助 的 。 
实例 ch18 17 : 因子 与 plot () 函数 的 应 用 。 

> # 建 立 因 子 变 量 并 对 其 用 plot 函数 

> y <- c(1:3, 2:4, 3:5,4:6) 


> yf<-as.factor (y) 
> plot(yf,main-"Using plot to graph factor variable") 


[执行 结果 ] 


Using plot to graph factor variable 


s 


12345 6 





当 我 们 提供 的 x 向 量 为 因子 变量 ,而 y 向 量 为 数值 向 量 ， 则 所 绘制 的 plot 图 形 为 各 个 因子 变 
量 的 箱 形 图 。 
实例 ch18 18 : 在 这 个 实例 中 ,我 们 将 crabs 数据 集 内 的 前 两 个 字段 以 paste 函数 连接 起 来 ， 并 将 
其 重新 定义 为 因子 变量 ， 之 后 将 所 需要 提供 的 y 数值 变量 以 该 数据 集 的 FL 变量 带 入 plot 函数 就 能 


够 绘制 出 4 种 群 组 的 箱 形 图 以 供 进一步 的 图 形 比较 。 
> # 建 立 数值 变量 FLVS 因子 变量 的 箱 形 图 
> crabs$ss <- as.factor(paste(crabs$sp, crabs$sex, sep-"-")) 
> plot(crabs$ss,crabsSFL,main-'plot(boxplot) FL vs ss') 





[ 执行 结果 ] 
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18-2-2-5 使 用 lines () 函数 绘制 回归 线 


当 我 们 了 解 如 何 绘制 上 述 数据 图 后 ， 也 可 以 使 用 上 述 数据 图 绘制 回归 线 ， 步 骤 如 下 所 示 。 
1) 使 用 lm O 函数 可 以 建立 一 个 最 简单 的 线性 模型 。 此 例 使 用 Im O 函数 建立 喷发 温泉 的 等 待 
模型 ， 如 下 所 示 。 


> model.waiting «- lm(waiting ~ eruptions, data = faithful) 
- 


上 述 model.waiting 是 lm () 的 一 个 返回 结果 ， 同 时 上 述 代码 会 将 waiting 作为 eruptions 的 一 个 
函数 。 
2) ”接着 我 们 可 以 使 用 fined O 函数 ， 从 回归 模型 中 获得 拟 合 值 。 


> model.value «- fitted(model.waiting) 
> 


实例 ch18_19 : 为 faithful 数据 图 增加 回归 线 。 
> plot(faithful) 


> lines(faithful$eruptions, model.value, col = "Green") 
> 


[ 执行 结果 ] 





waiting 








eruptions 


18-2-2-6 使 用 abline () 函数 绘制 线条 


若 在 abline () 函数 内 加 上 参数 “v =” 则 可 以 绘制 垂直 线 。 
实例 ch18_20 : 在 “v= 3.5” 的 位 置 为 faithful 数据 图 增加 垂直 线 。 
> plot(faithful) 


> abline(faithful, v= 3.5, col = "Blue") 
> 
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[执行 结果 ] 
3 
3 
$ o 
$7 
回 
3 














eruptions 


若 在 abline () 函数 内 加 上 参数 “h =” 则 可 以 绘制 水 平 线 。 


实例 ch18_21 : 在 waiting 变量 的 四 分 位 数位 置 绘制 水 平 线 。 


[ 
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» plot(faithful) 
» abline(faithful, h - quantile(faithful$waiting), col - "Blue") 


> 


执行 结果 ] 





90 








waiting 
70 





50 








eruptions 


其 实 abline () 函数 也 是 一 个 通用 函数 ， 如 果 传 递 本 章 的 18-2-2-4 节 所 建 的 model.waiting, 
也 可 以 直接 绘 出 faithful 数据 图 的 回归 线 。 
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实例 ch18_22 : 使 用 abline () 函数 绘制 faithful 数据 图 的 回归 线 。 
> plot(faithful) 


> abline(model.waiting, col = "Blue") 
> 


[执行 结果 ] 





waiting 








eruptions 


18-2-2-7 控制 其 他 绘图 的 参数 说 明 


在 正式 讲述 本 小 节 实例 前 ， 笔 者 将 介绍 另 一 个 对 象 LakeHuron， 这 是 一 个 时 间 序 列 对 象 ， 其 
数据 结构 如 下 所 示 。 


> strCLakeHuron) 
Time-Series [1:98] from 1875 to 1972: 580 582 581 581 580 ... 


> 


上 述 对 象 记录 了 1875 年 至 1972 年 美国 休 伦 湖 ( Huron ) 的 湖面 平均 高 度 ， 单 位 是 英尺 。 接 下 
来 的 图 形 将 以 这 个 对 象 为 实例 进行 说 明 。 
las 参数 ，las (label style )， 可 用 于 设 定 坐标 轴 的 标签 角度 ， 它 的 可 能 值 如 下 所 示 。 
口 “0”: 这 是 默认 值 ， 坐 标 轴 的 标签 与 坐标 轴 平 行 。 
口 “1”: 坐标 轴 的 标签 保持 水 平 。 
D “2”: 坐标 轴 的 标签 与 坐标 轴 垂 直 。 
口 “3”: 坐标 轴 的 标签 保持 垂直 。 
例 ch18 23 : 测试 las 参数 ， 了 解 其 应 用 


> plot(LakeHuron, las = 0, main = "las = 0 -- default") 
- 
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LakeHuron 


> plot(LakeHuron, las 
> 


LakeHuron 


> plot(LakeHuron, las 
> 


LakeHuron 
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las = 0 -- default 
N 
B 
e 
号 
e 
5 
co 
R 
bz T T T T T 
1880 1900 1920 1940 1960 
Time 


= 1, main = "las = 1") 


las=1 











= 2, main = "las = 2") 


las=2 











1880 - 
1900 二 
2j 1920 二 
1940 二 
1960 过 
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> plot(LakeHuron, las = 3, main - "las = 3") 
> 


las=3 





582 


LakeHuron 
580 


578 
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1880 -j 
1900 -] 
a192 -4 
1940 -] 
1960 + 


bty 参数 : bty ( box type )， 可 用 于 设 定 外 框 类 型 ， 它 的 可 能 值 如 下 所 示 。 
O “o”: 这 是 默认 值 ， 会 绘 出 完整 的 图 表 外 框 。 
O “n”: 不 绘制 图 表 外 框 。 
Q "r7" e" "u" "]" :可 根据 这 些 参数 对 应 的 字符 形状 ， 绘 出 边框 。 
接 下 来 的 实例 ， 将 使 用 实例 ch10_27 所 建 的 时 间 序列 变量 waterlevels ( 石门 水 库 的 水 位 数据 )。 
实例 ch18_24 : 使 用 bty =“n"， 不 绘 边 框 的 应 用 。 


> plot(water.levels, bty = "n", main = "bty = n") 
> 


[执行 结果 ] 


bty=n 


236 240 


water.levels 


232 





r T T T 1 
2016.0 2016.2 2016.4 2016.6 2016.8 


Time 


实例 ch18. 25 : 使 用 bty =“7”， 绘 边框 的 应 用 。 


> plot(water.levels, bty - "7", main =“bty = 7") 
> 
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[执行 结果 ] 





water.levels 
240 


236 


232 





bty=7 
了 T T T 1 


2016.0 2016.2 2016.4 2016.6 2016.8 


Time 


cex 参数 : cex ( character expansion ratio )， 这 个 参数 可 用 于 设 定 图 表 标 签 、 坐 标 轴 标 签 和 坐标 
轴 刻 度 的 数字 大 小 。 它 的 默认 值 是 1， 若 此 值 小 于 1 则 字 缩 小 ; 若 此 值 大 于 1 则 字 放 大 。 它 的 使 
用 方式 如 下 所 示 。 
口 cex.main : 设 定 图 表 标 签 的 大 小 。 
口 cex.lab : 设 定 坐 标 轴 标签 。 
口 cex.axis : 设 定 坐 标 轴 刻 度 。 


实例 ch18_26 : 下 列 是 笔者 随意 建立 的 一 个 数据 图 ， 使 用 默认 的 字号 。 


> X <- seq(0, 10, 2) 

> y <- rep(1, lengthGO) 

> plot(x, y, main = "Cex on Text Size") 
> 


[执行 结果 ] 


Cex on Text Size 
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实例 ch18_27 : 使 用 cex 调整 图 表 标 签 、 坐 标 轴 标 签 和 坐标 轴 刻 度 的 数字 大 小 的 应 用 。 
> plot(x, y, main = "New Cex on Text Size", cex.main = 2, cex.lab = 1.5, cex.axis 


= 0.5) 


> 


[ 执行 结果 ] 


New Cex on Text Size 











在 一 个 页 面 内 绘制 多 张 图 表 的 应 用 


如 果 想 要 在 单 张 页 面 内 放置 多 张 图 片 ， 需 使 用 两 个 参数 ， 分 别 是 mfrow 和 mfcol， 可 由 此 设 定 一 个 
页 面 要 放 多 少 张 图 ，mfrow 可 控制 1 行 的 图 形 数 ，mfeol 可 控制 1 列 的 图 形 数 ， 这 两 个 参数 将 接收 一 
个 含 两 个 元 素 的 向 量 ， 由 此 判断 应 该 如 何 安排 图 。mfrow 参数 的 使 用 方式 如 下 所 示 。 
如 果 想 要 设 定 1 行 有 两 张 图 ， 则 其 设 定 如 下 所 示 。 
mfrow =c (1,2) 
如 果 想 要 设 定 1 列 有 两 张 图 ， 则 其 设 定 如 下 所 示 。 
mfcol 2 c (2,1) 
如 果 想 要 设 定 一 个 页 面 有 4 张 图 ， 则 其 设 定 如 下 所 示 。 
mfrow 2 c (2,2) 
另外 ,我 们 还 需 使 用 par O 函数 ， 我 们 需 将 上 述 设 定 放 入 par O 函数 ， 若 想 结束 目前 单个 页 
面 放 置 多 张 图 的 状态 ， 也 需 将 上 述 设 定 放 入 par O 函数 。 
实例 ch18_28 : 单个 页 面 并 排放 置 2 张 图 表 的 应 用 。 





> X.par <- par(mfrow = c(1, 2)) 

> plot(water.levels, main = "ShihMen") 
» plot(LakeHuron, main - "Lake Huron") 
» par(x.par) 


> 
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[ 执行 结果 ] 
ShihMen Lake Huron 
N 
B 
Ei 
N eo 
1 ; 5 
S 9 g 
P 58 
S 
8 g 
ww 
2016.0 2016.6 1880 1920 1960 
Time Time 


实例 ch18_29 : 单个 页 面 上 放置 两 张 图 表 的 应 用 。 








> y.par <- par(mfcol = c(2, 1)) 
> plot(water.levels, main = "ShihMen") 
> plot(LakeHuron, main = "Lake Huron") 
> par(y.par) 
> 
[执行 结果 ] 
ShihMen 
$ 
E 
EN LL 
gs 8& 
E 2016.0 2016.2 2016.4 2016.6 2016.8 
Time 
Lake Huron 








LakeHuron 
576 


1880 1900 1920 1940 1960 


实例 ch18. 30 : 单个 页 面 放置 4 张 图 表 的 应 用 。 


x.par <- par(mfrow = c(2, 2)) 
plot(water.levels, main - "ShihMen") 
plot(LakeHuron, main - "Lake Huron") 
plot(faithful, main = "faithful") 
plot(crabs$FL, crabs$CW, main - "Crabs") 
par(x.par) 


wow ww oM ww 
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[执行 结果 ] 

ShihMen Lake Huron 

$ c 

e $ Newly 

El 3 

g R 3E 

2016.0 2016.4 2016.8 1880 1920 1960 

Time Time 
faithful Crabs 


crabs$CW 
20 40 





eruptions crabs$FL 


将 数据 图 存盘 


我 们 可 以 将 所 建 的 图 片 存 人 磁盘 内 ， 在 RStudio 环境 ， 这 项 工作 非常 简单 。 在 RStudio 窗口 右 
下 方 的 绘图 区 有 Export 功能 按钮 ， 可 单 击 此 按钮 ， 如 下 所 示 。 


Files Plots Packages Help Viewer e 
4 Ê zoom Sexpon- 9) 6 (9 4$ Publish 








i| Save as Image... 


本 Save as PDF... Lake Huron 





em Copy to Clipboard... 








walter.levels 
232 240 


2016.0 2016.4 2016.8 1880 1920 1960 
Time Time 
faithful Crabs | 





waiting 
50 80 
D 
Oo 
crabs$CW 
20 40 


15 25 35 45 10 15 20 





eruptions crabs$FL 
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在 下 拉 菜 单 中 有 3 个 菜单 项 。 
O Save as Image : 存 成 图 形 文件 ， 会 出 现 对 话 框 ， 然 后 输入 文件 名 ， 即 可 。 
口 Save as PDF : 可 以 存 成 PDF 文件 。 
O Copy to Clipboard : 可 以 将 图 片 文件 复制 至 剪贴 板 。 


下 图 是 将 实例 ch18 30 的 执行 结果 存 至 ch18 XR, JFL ch18_30 为 文件 名 。 在 上 述 窗 口中 
笔者 执行 “Save as Image” 命 令 。 





Save Plot as Image 



































Image format: Width: 506 | Height: 408 
| Directory... | -/Rbook/ch18 [e entm Ys ratio 
File name: k ch18_30} | Update Preview | 
ShihMen Lake Huron 
2 e 
E: 
t i HON 
5 £ 
$ R 3g 
2016.0 2016.4 2016.8 1880 1920 1960 
Time Time 
faithful Crabs 





crabs$CW 
20 40 

















15 25 35 45 10 15 20 
eruptions crabs$FL 
(View plot after saving (sae ) | Camel | | 
在 上 图 中 主要 设置 下 列 3 个 字段 。 


口 Image format : 选择 文件 格式 ， 此 例 笔 者 选择 JPEG。 
O Directory : 可 单 击 ， 然 后 选择 要 将 图 片 文件 存 至 哪 一 个 文件 夹 ( Directory ). 
O File name : 要 储存 的 文件 名 。 

上 述 设 定 完成 后 可 以 单 击 Save 按钮 ， 就 可 以 存盘 了 。 
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TJ rean 


至 今 所 绘制 的 图 均 是 在 RStudio 右 下 方 的 窗口 显示 ， 其 实 R 系统 也 允许 你 开 一 个 窗口 显示 所 
建 的 数据 文件 ， 可 以 使 用 dev.new() 函数 ， 新 建 一 个 窗口 ， 如 下 所 示 。 
> dev.new() 


NULL 
> 


上 述 代码 执行 后 ， 将 新 建 一 个 窗口 ， 如 下 所 示 。 
c 一 




















实例 ch18_31 : 在 新 建 窗口 建立 一 个 LakeHuran 对 象 的 数据 文件 。 


> plot(LakeHuron) 
> 


[ 执行 结果 ] 





.OB RT A eee 


wn 


1880 1900 1920 1940 1960 


LakeHuron 


576 580 


Time 





如 果 没 有 关闭 上 述 窗口 ， 则 所 有 绘图 均 在 此 窗口 显示 。 例 如 笔者 再 绘制 一 张 数据 图 ， 如 下 所 示 。 
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> plot(faithful) 
> 





可 以 得 到 下 列 结果 。 
eoe 
2 8 
5 
SS o 
wu» 








Quartz 4 [*]- 











15 20 25 30 3.5 40 45 50 


eruptions 





新 建 上 述 窗口 后 ， 如 果 想 关闭 上 述 窗口 ， 可 以 使 用 下 列 函 数 。 


> dev.off( ) 
RStudioGD 

2 
> 


此 时 之 前 所 建 窗口 将 被 关闭 ， 之 后 又 将 以 RStudio 右 下 方 窗口 显示 所 建 的 数据 图 。 
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本 章 习题 


一 、 判 断 题 


( 
( 
( 
( 


) 1. 
)2. 
J 3. 
) 4. 
35. 


) 6. 


EA 


)8. 
) 9. 
) 10. 
) 11, 
J yx 
y 13. 
) 14. 


barplot () 与 pie () 两 个 函数 主要 是 用 来 绘制 分 类 数据 统计 图 。 
dotchart () 与 plot () 两 个 函数 主要 是 用 来 绘制 分 类 数据 统计 图 。 

设 定 函数 barplot () 的 参数 horiz=TRUE 将 会 绘制 水 平 式 的 条 形 图 。 
如 果 想 要 在 单个 页 面 内 放置 多 张 图 片 ， 必 须 使 用 参数 mfrow。 

如 果 想 要 设 定 在 一 个 页 面 内 有 2 行 3 列 共 6 张 图 ， 可 以 用 如 下 命令 。 
> par(mfrow-c(2, 3)) 


plot O 主要 是 绘制 两 数值 变量 的 散 点 图 ( Seatterplot )， 可 以 从 中 观察 出 两 数值 变量 间 
的 线性 相关 性 。 当 然 plot 也 被 用 来 绘制 Table, Factor 以 及 timeSeries 等 对 象 的 统计 
图 ， 只 是 应 用 于 不 同 的 对 象 时 所 定义 出 来 的 图 形 也 会 有 所 不 同 。 

Plot () 仅 用 来 绘制 两 数值 变量 的 散 点 图 ( Scatterplot )， 可 以 从 中 观察 出 两 数值 变量 间 
的 线性 ， 并 无 法 应 用 于 分 类 变量 ， 绘 制 出 箱 形 图 。 

绘制 直方 图 的 R 基本 默认 命令 为 hist (x )。 

绘制 箱 形 图 的 R 基本 默认 命令 为 plot (x )。 

绘制 x 与 y 散 点 图 (Scatterplot ) 的 R 命令 为 plot (x, y )。 

绘制 箱 形 图 的 R 基本 默认 命令 为 boxplot (x )。 

绘制 苓 叶 图 的 R 基本 默认 命令 为 stemplot (x )- 

绘制 条 形 图 的 R 基本 默认 命令 为 barplot (x )。 

绘制 荃 叶 图 的 R 基本 默认 命令 为 stem (x )。 





二 、 单 选 题 


( 


EUN 


以 下 哪个 函数 主要 是 用 来 绘制 分 类 数据 的 统计 图 ? 
A. boxplot () B. dotchart () 
C. barplot () D. hist () 

以 下 哪个 函数 主要 是 用 来 绘制 数值 数据 的 统计 图 ? 
A. boxplot () B. pie () 

C. barplot () D. points () 


.以 下 哪 种 类 型 的 统计 图 是 plot O 函数 无 法 绘制 的 ? 


A. 成 对 的 散 点 图 B. 时 间 序 列 图 
C. 箱 形 比较 图 D. 所 列 3 种 都 可 以 绘制 
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当 以 下 的 命令 被 执行 后 ,我 们 可 以 得 到 以 下 哪 种 的 统计 图 形 ? 
> plot(as.factor(x)) 


A. 散 点 图 B. 时 间 序 列 图 
C. 箱 形 图 D. 条 形 图 

使 用 以 下 哪个 函数 可 以 建立 一 个 最 简单 的 线性 模型 ? 
A. abline () B. anova () 

C. lines () D. Im () 


绘制 以 下 图 型 的 R 命令 可 能 为 哪个 ? 


























2 4 è s » 


A. plot ( matrix ( x, y )) B. matrix ( plot ( x, y )) 
C. pairs ( cbind (x, y )) D. pair ( cbind (x, y )) 
绘 以 下 图 型 R 命令 可 能 为 以 下 哪个 ? 














) 8. 


) 9. 


A. plot (x) 
points ( 5, col = "red" ) 
C. plot (x) 
points ( 5 ) 
哪 种 R 命令 会 产生 以 下 图 形 ? 
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B. plot ( x) 
points ( 5, pch 2 24 ) 
D. plot ( x) 
points ( 5, col = "red" ,pch 2 24) 














以 下 哪 种 R 命令 会 产生 以 下 图 形 ? 


title 
o 
o -4 o 
o o o 
o- o 
> 
44 
o 
oa 
o 
T T T T 
2 6 8 10 
x 
A 1 x=1:10 B. 1 x=1:10 
^ 2 y-c(2,7,3,5,9,8,7,6,1,7) ' 2 y-c(2,7,3,5,9,8,7,6,1,7) 
3 plot(x, y) 3 plot(x, y) 
4 title(main-"title") 
C. 1 x=1:10 D. 1 *=1:10 
" 2 y-c(2,7,3,5,9,8,7,6,1,7) * 2 y-c(2,7,3,5,9,8,7,6,1,7) 
3 plot(x, y) 3 plot(x, y) 
4 title(sub-"title") 4 title(xlab-"title") 
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( 


( 


A. 1 boxplot(x) 
2 boxplot(y) 
3 par(mfrow=c(1,2)) . 





C. | 1 par(mfrow-c(boxplot(x) ,boxplot(y))) 


) 10. 以 下 R 命令 执行 结果 为 以 下 哪个 ? 


Tc:5,3:7,1:6) 
2 histoo 





A = —— 



































5 w LI 


) 11. 绘制 以 下 图 形 的 R 命令 可 能 为 以 下 哪个 ? 
~] 


=a 





B. 1 
2 
3 


|: [eir 2) 


boxplot 
boxp1 ot) 


D. 以 上 均 不 对 


2 












































E 

-4 

uu 
pun 
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A. hist (x) B. boxplot ( x ) 
C. barplot ( x ) D. stem (x) 
三 、 多 选 题 

) 1， 以 下 哪些 函数 是 用 来 绘制 分 类 数据 统计 图 的 ? ( 选择 两 项 ) 
A. hist () B. pie O 
C. barplot () D. dotplot () 
E. stem () 

) 2， 以 下 哪些 函数 是 用 来 绘制 数值 数据 统计 图 的 ? (选择 3 项 ) 
A. hist () B. pie O 
C. barplot () D. plot () 
E. pairs () 


四 、 实 际 操作 题 ( 如 果 题 目 有 描述 不 周详 时 ， 请 自行 假设 条 件 ) 


T. 


2; 


下 载 软 件 包 MASS 并 使 用 其 中 的 数据 框 Cars93 ( 在 1993 年 销售 部 93 汽车 的 数据 )。 将 其 中 的 
汽车 分 类 变量 Type 转换 成 为 table 变量 并 使 用 mfeolec (1,2) 绘图 参数 设 定 在 单个 页 面 中 并 排 
绘制 1 张 柱 形 图 ( barplot ) 与 另 1 张 圆 饼 图 C pie )。 

下 载 软件 包 MASS 并 使 用 其 中 的 数据 框 Cars93 ( 在 1993 年 销售 部 93 汽车 的 数据 )。 使 用 2 个 
耗 油 量 数值 变量 MPG.city 与 MPG.highway 绘制 散 点 图 ， 并 加 上 趋势 线 与 标题 。 
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R 语言 内 置 了 许多 的 绘图 工具 函数 以 供 参考 使 用 ， 对 于 初学 者 来 说 ， 可 以 先 使 用 demo 

(graphics ) 或 者 demo ( image ) 两 个 命令 来 参考 R 所 提供 的 绘图 实例 。 
R 的 绘图 语句 可 以 分 成 以 下 3 个 基本 类 型 。 

T) 高 级 绘图 (High-level Plotting Functions ) : 主要 用 来 建立 一 个 新 的 图 形 ， 在 第 16 至 18 章 我 们 
所 介绍 的 各 种 统计 绘图 ， 基 本 上 都 是 属于 高 级 绘图 。 

2) 低级 绘图 (Low-level Plotting Functions ) : 在 一 个 已 经 绘制 好 的 图 形 上 加 上 其 他 的 图 形 元 素 ， 
例如 加 上 说 明文 字 、 直 线 或 点 ， 等 等 。 

3) 交互 式 绘图 (Interactive Graphics Functions ) : 允许 使 用 者 以 互动 的 方式 使 用 其 他 的 设备 ， 例 
如 鼠标 ， 在 一 个 已 经 存在 的 图 形 上 加 入 绘图 的 相关 信息 。 


(EB 绘图 的 基本 设置 


在 R 软件 制作 统计 绘图 时 可 以 新 建 单个 窗口 ， 新 建 多 个 绘图 窗口 ， 也 可 以 设计 成 单个 窗口 内 
含 多 个 图 形 的 方式 ,甚至 可 以 将 图 形 储存 为 对 象 以 备 后 续 的 参照 修改 与 使 用 。 当 然 也 需要 设置 图 
形 区 域 的 大 小 范围 与 纸张 的 边缘 尺寸 等 参数 ， 以 使 得 图 形 更 加 完整 。 


19-1-1 绘图 设备 
R 在 绘图 时 会 关系 到 各 种 相关 设备 ， 例 如 窗口 、 打 印 机 、 屏 幕 环境 ， 等 等 ， 也 需要 考虑 所 使 
用 的 操作 系统 。 例 如 在 Unix 操作 系统 中 ,绘图 窗口 的 新 建 是 使 用 X11 O 命令 ， 但 是 在 Windows 
操作 系统 环境 中 ， 新 建 绘 图 窗口 则 是 windows () 命令 。 以 下 介绍 几 个 常用 的 绘图 设备 的 设置 命令 。 
口 dev.cur O : 查询 当前 设备 。 
口 dev.list () : 所 有 设备 列表 。 
口 dev.next O : 选择 向 后 方向 打开 的 下 一 设备 。 
口 dev.prev O : 选择 向 前 方向 打开 的 上 一 设备 。 
口 dev.off ( which = dev.cur () ) : 关闭 设备 。 
口 dev.set ( which = dev.next () ) : 设 定 目前 设备 。 
口 devnew C.) : 新 建设 备 。 
口 graphics.off () : 关闭 所 有 绘图 设备 。 
在 当前 设备 中 ， 只 有 一 个 设备 是 正在 工作 中 (active) 的 ， 这 是 所 有 图 形 绘 制 时 的 实际 绘图 的 
设备 。 还 有 一 种 始终 是 开启 的 “ 空 设备 ”( null device )， 它 只 是 一 个 占 位 符 。 任 何尝 试 使 用 ” 空 设 
备 ”的 操作 都 将 打开 一 个 绘图 的 新 设备 ， 并 且 设 定 该 绘图 设备 的 参数 。 我 们 在 前 几 章 作 的 任何 绘 
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图 ， 因 为 都 没有 实际 打开 任何 绘图 设备 ， 因 此 R 就 自动 蔡 我 们 打开 了 一 个 新 的 窗口 ， 并 且 炭 和 人 了 
默认 的 绘图 环境 参数 。 

所 有 的 设备 是 有 相关 名 称 的 ( 例如 ,“X11”“windows” 或 “postscript”) 和 一 个 1 到 63 范围 
内 的 数值 作为 简单 参照 ,“ 空 设备 ”始终 是 设备 1。 一 旦 有 绘图 设备 被 打开 则 “ 空 设备 ”将 不 被 视 为 
工作 中 的 设备 。 我 们 可 以 使 用 dev.list ()， 来 列 出 打开 的 绘图 设备 清单 。devnext () 和 dev.prev () 可 
选择 在 所 需 方向 打开 的 下 或 者 上 一 设备 ， 除 非 没有 设备 是 开放 的 。 

dev.off O 的 作用 是 关闭 指定 的 设备 ， 若 未 指定 的 话 ， 在 默认 情况 下 是 关闭 当前 设备 。 如 果 关 
闭 的 是 当前 设备 而 还 有 其 他 设备 是 打开 的 情况 下 , 则 下 一 个 已 打开 的 设备 将 被 设 定 为 工作 中 的 当 
前 设备 。 当 所 有 的 绘图 设备 已 经 被 关闭 仅 剩 下 唯一 的 “ 空 设备 ”也 就 是 设备 1 时 ， 若 再 继续 尝试 
关闭 设备 1 将 会 产生 一 个 错误 的 信息 。 而 graphics.off () 将 关闭 所 有 打开 的 图 形 设备 。 

dev.set O 可 以 将 特定 的 装备 设 为 工作 中 的 当前 设备 。 如 果 没 有 与 这 一 数值 相同 的 设备 ， 它 等 
同 于 执行 设 定 该 数值 的 下 一 个 数值 对 应 的 设备 为 当前 设备 。 如 果 将 参数 设 为 which=1， 它 将 打开 一 
个 新 的 设备 。 

dev.new () 将 新 建 一 个 设备 。 通 常 R 会 自动 在 需要 时 新 建设 备 ， 这 使 我 们 能 够 以 独立 于 绘图 
平台 的 方式 打开 更 多 设备 。 对 于 文件 类 型 的 设备 例如 PDF 格式 等 的 文件 ，R 会 自动 以 “Rplotsl. 
pdf" "Rplots2.pdf" "Rplots3.pdf" ...... “Rplots999.pdf” 来 依 序 命名 。 文 件 类 型 的 绘图 设备 的 新 建 
命令 有 许多 ,例如 :jpeg O. png O, bmp O, tiff O, pdf O 与 postscript ()， 等 等 。 

下 面 我 们 设计 了 一 系列 的 绘图 命令 ， 能 够 让 读者 迅速 有 效 地 掌握 R 的 绘图 设备 与 应 用 。 在 
窗口 环境 中 我 们 使 用 了 3 种 新 建设 备 的 方式 : windows () ( 这 个 函数 适用 于 Windows 操作 系统 )、 
dev.new () 以 及 打开 绘图 文件 的 方式 。R 也 会 依照 我 们 所 给 予 的 命令 返回 相应 的 结果 ， 下 列 是 笔 
者 用 Macos 系统 新 建 一 个 绘图 窗口 的 实例 说 明 。 


> # 新 建 一 个 绘图 设备 ， 多 新 建 一 个 绘图 窗口 
> dev.new() 
NULL 
> # 查 询 所 有 的 绘图 设备 ， 列表 
> dev.list() 
RStudioGD quartz_off_screen quartz 
2 3 4 
> # 和 查询 工作 中 的 当前 绘图 设备 
> dev.cur() 
quartz 
4 
- 


上 述 RStudioGD 是 RStudio Graphics Device, quartz 是 笔者 使 用 dev.new O 新 建 的 绘图 设备 。 
接 下 来 笔者 将 用 Windows 操作 系统 进行 测试 。 下 列 是 实例 。 
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> # 查 询 条 统 所 有 的 绘图 设备 ' 列表 
> dev.1ist() 
RstudioGD png 

2 3 


> # 新 建 一 个 绘图 窗口 
> windows () 
> KFBIECEBRRBUSBISSEIRS 列表 
> dev. list() 
RstudioGD png windows 
2 3 4 
> # 查 询 工作 中 的 当前 绘 国 设备 
> dev.cur() 
windows 
4 


> 


以 下 笔者 将 返回 Mac OS 系统 测试 与 执行 ， 当 我 们 在 绘图 时 如 果 并 未 打开 任何 绘图 设备 的 话 ， 
R 会 自动 新 建 一 个 绘图 窗口 并 将 图 绘制 在 该 新 建 的 窗口 。 如 果 已 经 有 打开 的 唯一 绘图 设备 ， 则 图 
自然 会 绘制 在 此 绘图 设备 内 。 如 下 所 示 ， 若 有 多 个 绘图 设备 被 打开 时 ， 我 们 可 以 以 dev.set () fr 
令 先 设 定 工作 中 的 当前 设备 ， 也 可 以 用 dev.cur O 确认 ， 当 前 打开 的 设备 确实 是 我 们 希望 将 图 


绘制 人 的 设备 。 


> 参股 定 第 2 个 绘图 设备 为 当前 设备 
> dev.set(2) 
RStudioGD 
2 
> 


如 以 上 的 命令 ,我 们 知道 如 果 目 前 绘图 ， 将 绘 在 RStudio 窗口 。 在 下 列 实例 中 ， 笔 者 先 将 当 
前 绘图 窗口 改 为 编号 为 4 的 quarz 窗口 ， 然 后 再 关闭 此 窗口 再 列 出 所 有 绘图 设备 ， 让 读者 了 解 其 


变化 ， 最 后 再 关闭 所 有 绘图 设备 。 


> ## 没 定 第 4 个 绘图 设备 为 当前 设备 
> dev.set(4) 
quartz 


4 
> # 关 闭 当前 预 设 的 设备 
> dev.off() 
RStudioGD 
2 
> # 查 询 所 有 的 绘图 设备 ， 列表 
> dev.list() 


RStudioGD quartz_off_screen 


2 
> XB RIRSE 
» graphics.off() 


> # 查 询 系统 所 有 的 绘图 设备 ， 列 表 。NULL 表 示 所 有 的 绘图 设备 均 已 关闭 


> dev.list() 
NULL 
> dev.off() 


Error in dev.off() : cannot shut down device 1 (the null device) 


- 
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当 我 们 需要 关闭 当前 的 绘图 设备 时 可 以 使 用 dev.off O 函数 ，R 会 告诉 我 们 关闭 后 工作 的 当前 
绘图 设备 ， 若 没有 任何 绘图 设备 被 打开 的 话 ， 则 会 返回 错误 的 信息 。 另 外 我 们 可 以 使 用 graphics. 
off () 去 关闭 所 有 的 绘图 设备 。 
实例 ch19_1 : 新 建 一 个 图 形 文件 ， 之 后 所 绘 的 图 将 在 此 图 形 文件 内 。 

> getwd() # 了 解 当前 工作 目录 

[1] "/Users/cshung" 


> 桂 ] 开 一 个 绘图 文件 ， 以 供 绘 图 使 用 及 存盘 
> jpeg(filename = "mypict.jpg") # 在 当前 工作 目录 下 建立 此 图 文件 


> pie(4:1) # 所 建 的 图 
> dev.off() # 关 闭 此 文件 
RStudioGD 

2 


> 
然后 可 以 在 当前 工作 目录 中 看 到 mypietjpg 文件 ， 如 下 图 所 示 。 

日 E mypictjpg 15.3 KB Sep9,2015,10:27PM 
须 特别 留意 ， 必 须 执行 dev.off O 命令 后 ， 才 可 以 打开 文件 ， 因 为 如 果 不 关闭 此 绘图 设备 (此 
时 ， 图 形 文件 也 被 视 为 是 存 图 文件 设备 )，R 系统 认为 还 可 能 要 绘图 ， 即 使 打开 文件 也 将 看 不 到 任 
何 内 容 。 在 这 里 ， 最 后 可 以 看 到 mypictjpg 的 内 容 ， 如 下 所 示 。 


























19-1-2 绘图 设置 
其 实 本 节 内 容 部 分 已 在 前 3 章 做 过 解说 ， 在 此 则 作 完 整 的 说 明 。R 的 绘图 相关 的 参数 有 许 


多 ,我 们 可 以 使 用 ?par 命令 来 加 以 了 解 。 而 了 解 后 就 可 以 使 用 par O 函数 来 查询 当前 设置 与 进行 
相关 的 设置 了 。 我 们 可 以 使 用 par () 3X par ( no.readonly = TRUE ) 来 获取 当前 所 有 图 形 参数 的 设 





407 


408 


R 语言 一 一 迈 向 大 数据 之 路 


置 值 ， 总 计 有 72 个 。 这 些 参数 的 名 称 也 可 以 使 用 graphics:::.pars 命令 来 获取 。 
实例 ch19 2 : 获得 par () 的 所 有 参数 。 


> graphics:::.Pars 


[1] "xlog" "ylog" "adj" "ann" "ask" 

[6] "bg" "bty" "cex" "cex.axis" "cex.lab" 
[11] "cex.main" "cex.sub" "cin" "col" "col.axis" 
[16] "col.lab"  "col.main" "col.sub" "cra" “ert” 

[21] "csi" "cxy" "din" "err" "family" 
[26] "fg" "fig" "fin" "font" "font.axis" 
[31] "font.lab" "font.main" "font.sub" "lab" "las" 

[36] "lend" "lheight" — "1join" "lmitre" "ty" 

[41] "wd" "mai" "mar" "mex" "mfcol" 
[46] "mfg" "mfrow" "mgp" "mkh" "new" 
[51] "oma" "omd" "omi" "page" "pch" 
[56] "pin" "plt" "ps" "pty" "smo" 
[61] "srt" "tck" el "usr" "xaxp" 
[66] "xaxs" "xoxt" "xpd" "yoxp" "yaxs" 
[71] "yaxt" "ylbias" 


每 个 设备 会 有 其 自己 的 图 形 参数 集合 。 如 果 当 前 设备 是 空 设备 (nul device), par 将 根据 之 前 
所 设置 的 参数 新 建 一 个 设备 。 设 备 所 需要 的 参数 是 由 函数 options ( "device" ) 来 提供 的 。 通 过 一 个 
或 多 个 特征 向 量 的 参数 名 称 给 予 par 所 需要 的 各 项 参数 。 我 们 首先 介绍 par O 函数 的 使 用 格式 ， 
如 下 所 示 。 

par (..., «tag» = «value», «tag» = <value>, no.readonly = FALSE ) 

«highlevel plot? ( \dots, «tag» = «value? ) 

参数 标签 <tag> 必须 符合 图 形 参数 名 称 。 设 定时 使 用 的 方式 为 参数 标签 <tag>= 参数 值 ; 所 有 
的 参数 值 设 定 后 就 形成 一 组 向 量 参数 清单 ， 作 为 绘图 参数 的 依据 。 

no.readonly 是 一 个 逻辑 值 参 数 ， 如 果 为 真 ( TRUE ) 或 者 所 有 的 参数 都 为 空 蝗 ， 则 将 返回 所 有 
目前 的 图 形 参 数值 。R.0. 代表 只 读 参数 ,这些 只 可 能 在 查询 中 使 用 ， 是 不 能 加 以 设置 的 。 例 如 ， 

“cein”,“cra”,“esi”,“cxy” 以 及 “din” 等 均 为 只 读 参数 。 
RH. RénSNS par O 来 设置 的 参数 如 下 所 示 。 
"ask", "fig", "fn", "Iheight", "mai", "mar", "mex", "mfcol", "mfrow", "mfg", "new", 
"oma", "omd", "omi", "pin", “plt”, "ps", "pty", “usr”, "xlog". "ylog" VUA "ylbias" o 

其 余 的 参数 还 可 以 作为 高 级 或 者 低级 绘图 函数 的 参数 使 用 。 例 如 ，plot.default O, plot. 
window (), points () lines ()、abline (), axis (), title (), text O, mtext (), segments (), symbols (), 
arrows (), polygon (), rect (), box (), contour C), filled.contour () 以 及 image ()， 等 ， 这 种 设置 功能 ， 
只 在 执行 过 程 中 会 被 启动 。 然 而 “bg”、“cex” "eol", "hy", “lwd? A “peh” 6 项 只 能 作为 某 些 
特定 绘图 函数 的 参数 。 

以 下 尽 可 能 详细 地 对 图 形 参数 加 以 说 明 ， 部 分 参数 辅 以 实例 ， 以 便 读 者 理解 其 应 用 
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O adj : 设置 文字 的 对 齐 方式 。 值 为 0 是 左 对 齐 ; 1 则 是 右 对 齐 ; 0.5 ( 默认 值 ) 为 居中 对 齐 。 任 
何在 [0, 1] 区 间 的 数值 都 是 可 以 使 用 的 ， 因 此 也 做 相对 位 置 的 对 应 。 也 可 以 用 向 量 adj = c (x, 
y ) 分 别 表示 文字 与 x 轴 与 y 轴 的 对 齐 方式 。 

O ann : 此 为 注释 的 逻辑 值 ， 默 认 值 是 TRUE， 表示 加 上 注释 ， 若 设 定 为 FALSE 则 表示 不 加 上 轴 
的 标签 也 不 加 标题 。 

O ask : 此 为 逻辑 值 ， 如 果 为 TRUE ( 与 R 会 话 是 交互 式 )， 则 在 绘制 新 图 之 前 系统 将 要 求 使 用 者 
输入 参数 。 因 为 各 种 设备 的 不 同 ， 它 也 会 有 不 同 的 影响 。 这 不 是 真 的 图 形 参 数 且 它 的 使 用 也 
不 支持 devAskNewPage。 

口 bg : 用 于 设置 区 域 的 背景 颜色 。 当 从 par () 调用 新 的 图 形 文件 时 ， 它 的 起 始 值 会 设置 为 
FALSE。 图 形 的 背景 色 会 自动 设 为 合适 的 值 。 许 多 设备 的 初始 值 的 设置 会 遵从 bg 参数 ， 其 余 
通常 它 的 设置 是 “白色 ”。 请 注意 ， 对 于 某 些 图 形 功 能 ， 如 plot.default O 和 点 参数 此 名 称 具 
有 不 同 的 含义 。 

口 bty : MEXT HFA MARE "o" RUE), "I", "7", "e", "u^ xk "D" 则 
图 形 的 边框 类 似 于 相应 的 字符 。 值 为 “n” 则 代表 取消 框 。 

口 cex : 所 绘制 的 文字 和 符号 相对 于 默认 值 的 数值 应 放大 的 倍率 ， 当 设备 被 打开 时 默认 值 是 1， 
如 果 设 为 2 则 为 原先 的 两 倍 ， 如 果 设 为 0.75 则 为 原先 的 0.75 倍 。 当 我 们 设置 图 片 的 版 面 

(layout ) 改变 时 ， 例 如， 设置 mfrow 时 ， 即 会 开启 设置 。 有 些 绘图 功能 ， 如 plot.default O 
使 用 这 个 参数 设置 值 ， 表 示 此 图 形 乘 以 该 参数 的 数值 。 如 点 (points) 和 文字 (text) 等 一 些 
绘图 函数 接受 一 组 向 量 值 并 可 以 重复 使 用 。cex 具体 分 为 以 下 几 个 参数 。 
cex.main : 设置 图 表 标 签 的 大 小 。 
cex.lab : 设置 坐标 轴 标 签 。 
cex.axis : 设置 坐标 轴 刻 度 。 
cex.sub : 副 标 签 相对 应 放大 的 倍数 。 

Q cin : 文字 的 宽 与 高 ( width, height) 尺寸 使 用 英寸 为 单位 。 与 era 为 不 同 单位 的 描述 方式 。 

O col: 绘图 的 默认 颜色 ,以 正 整 数 来 表示 。 常 用 的 颜色 有 黑色 (1)、 红 色 (2)、 绿色 (3)、 蓝 
色 (4)、 浅 蓝 (5)、 紫 红 (6)、 黄 色 (7 ) 与 灰色 (8)， 等 等 。 我们 可 以 使 用 pie (rep ( L8), 
col=1:8 ) 绘图 得 知 。 另 外 我 们 也 常 使 用 rainbow O 函数 去 选用 红 、 橙 、 黄 、 绿 、 蓝 、 靛 、 紫 
等 色彩 。 如 果 对 各 种 色彩 的 英文 单词 有 把 握 的 话 ， 也 可 以 直接 使 用 ,例如 笔者 在 前 几 章 使 用 
颜色 的 英文 ， 直 接 设置 颜色 了 。 有 些 函 数 例如 线 (lines) 和 文字 ( text ) 会 使 用 一 组 整数 向 
量 ， 其 数值 以 供 重复 使 用 。 


实例 ch19_3 : 使 用 pie O 函数 和 col 参数 ， 列 出 绘图 的 8 种 颜色 。 


> pie(rep(1,8), col = 1:8, main = "Colors") 
> 
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Colors 





实例 ch19 4 : 使 用 pie () 函数 和 rainbow 参数 ， 列 出 彩虹 区 分 绘图 的 16 种 颜色 


> pie(Crep(1, 16), col = rainbow(16), main = "Rainbow Colors") 


Rainbow Colors 





实例 chi9 5 : 列 出 所 有 colors () 函数 内 置 的 颜色 名 称 。 


> colors( ) 
[1] "white" "aliceblue" "antiquewhite" "antiquewhitel" 
[5] "antiquewhite2" "antiquewhite3" "antiquewhite4" "aquamarine" 
[9] "aquamarine1" "aquamarine2" "aquamarine3" "aquamarine4" 
[13] "azure" "azurei" "azure2" "azure3" 
[17] "azure4" "beige" "bisque" "bisquel" 
[21] "bisque2" "bisque3" "bisque4" "black" 
[25] "blanchedalmond" "blue" "bluei" "blue2" 
[29] "blue3" "bplue4" "blueviolet" "brown" 
[33] "browni" "brown2" "brown3" "brown4" 
[37] "burlywood" "burlywoodl" "burlywood?" "burlywood3" 
[41] "burlywood4" "cadetblue" "cadetbluei" "cadetblue2" 
[45] "cadetblue3" "cadetblue4" "chartreuse" "chartreusei" 
[49] "chartreuse2" "chartreuse3" "chartreuse4" "chocolate" 


共计 有 657 种 英文 颜色 的 单词 。 上 述 结 果 仅 列 出 了 前 52 种 颜色 。 
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口 colaxis : 坐标 轴 的 颜色 ， 默 认为 黑色 。 

口 collab : 坐标 轴 标 签 的 颜色 ， 默 认为 黑色 。 

口 colmain : 标题 的 颜色 ， 默 认为 黑色 。 

口 colsub : 副标题 的 颜色 ， 默 认为 黑色 。 

O cra: 文字 的 宽 与 高 ( width, height ) 的 尺寸 ， 使 用 像素 (pixels ) 为 单位 。 

Q en : 字母 旋转 的 角度 ， 通常 使 用 90、180、270 RE. 

O csi: 只 读 参 数 ， 默 认 的 字母 高 度 以 英寸 为 单位 。 与 par (“cin” ) [2] 设置 相同 。 

O exy : 只 读 参 数 ， 用 户 自 定义 默认 的 字母 大 小 。par (“cxy”) 的 值 可 以 理解 为 par ( "cin" ) /par 
( "pin" ). 

O din: 只 读 参数 ， 设 备 的 尺寸 ( 宽 与 高 )， 以 英寸 为 单位 。 

Q err : 错误 时 回报 的 程度 ， 通 常 有 点 超出 范围 ，R 既 不 绘 出 也 不 回报 。 

口 family : 用 于 绘制 文本 的 字体 系列 名 称 。 最 大 允许 长 度 为 200 个 字 节 。 此 名 称 获取 映射 到 特定 
于 设备 的 字体 描述 每 个 图 形 设 备 。 默 认 值 是 “”( 空 字符 串 )， 这 意味 着 ， 默 认 值 将 使 用 设备 
字体 。 标 准 值 是 “serif”, “sans”、“mono” 和 “Hershey” 字 体系 列 也 可 。( 不 同 的 设备 可 以 定 
义 其 他 字体 ， 而 某 一 些 设备 会 完全 忽略 此 设置 ) 

O fg: 绘图 的 前 景色 ， 例 如 坐标 轴 ， 方 块 框 ， 等 等 ， 默 认 是 黑色 。 

O fig: 以 数值 向 量 形式 c(x 1，x 2，yl、y2 ) 给 出 了 在 设备 的 显示 图 形 区 域 在 绘图 区 中 相对 坐标 的 
数值 向 量 。 例 如 : par (figec ( 0.5, 1,0,0.5 )) 表示 实际 图 形 仅 绘制 在 绘图 区 的 右 下 方 MA 大 小 。 


A RStudio 在 Mac OS 系统 运作 时 ， 在 笔者 撰写 此 书 时 ， 绘 图 区 仍 无 法 处 理 中 文 ， 所 以 下 列 所 
Su 有 程序 均 是 在 Windows 操作 系统 下 完成 。 


实例 ch19_6 : 控制 图 形 在 绘图 区 的 右 下 方 VA 大 小 处 。 


> # 给 图 参数 fig 的 使 用 ， 图 形 仅 绘制 在 绘图 区 的 右 下 方 /4 大 小 处 
> par (mfrow=c(1,1),mai=c(0.4,0.5,1.2,0.2), fig=c(0.5, 1, 0, 0.5)) 
> plot(1:5,main=" 图 形 仅 绘制 在 给 图 区 Nn. BE FALAM") 

[执行 结果 ] 


图 形 仅 绘制 在 绘图 区 
的 右 下 方 24 大 小 处 
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若 想 恢复 图 形 在 原 绘图 区 的 位 置 ， 可 重新 调整 上 述 par O 函数 ， 或 是 可 参考 实例 第 18 章 的 
chl8 26. 

O fin: 实际 图 形 区 域 的 尺寸 ( 宽 与 高 )， 单 位 为 英寸 。 

D font : 使 用 整数 值 表达 使 用 的 文字 选取 的 字体 。1 为 默认 值 ，2 为 粗 体 ，3 为 斜体 ，4 为 粗 斜 
体 ，5 为 选用 符号 字体 ， 等 等 。 

口 fontaxis : 坐标 轴 注 释 所 使 用 的 字体 。 

口 font.lab : 坐标 轴 标签 所 使 用 的 字体 。 

口 fontmain : 标题 所 使 用 的 字体 。 

口 font.sub : 副标题 所 使 用 的 字体 。 

O lab: 以 数值 向 量 形式 e Cx, y. len )， 修 改 坐 标 轴 被 注释 的 默认 方式 。x 和 y 值 给 出 x 和 y 轴 的 
刻度 (近似 ) 数目 而 len 指定 标签 的 长 度 。 默 认 值 是 c(5，5，7 )。 注 意 这 只 在 用 户 建立 坐标 
系统 时 才 影 响 参数 xaxp 和 yaxp， 并 不 影响 已 建立 的 坐标 轴 的 参数 。 

O las : 数值 表示 坐标 轴 标 签 的 表示 方式 。0 为 默认 值 , 平行 于 坐标 轴 ; 1 为 水 平方 式 ; 2 为 垂直 
于 坐标 轴 ; 3 垂直 方式 。 也 适用 于 mtext 低级 绘图 。 

O lend : 线条 端点 的 型 式 ， 可 以 用 整数 或 描述 两 种 方式 来 表达 。0 或 “round” 为 默认 值 表示 贺 
形 的 线 端 点 ; 1 或 “butt” 表 示 对 接 的 线 端 点 ; 2 或 “square” 表 示 方 形 的 线 端 点 。 

口 lheight : 行 高 度 的 乘 数 。 用 于 多 行文 字 间 的 空间 距离 ， 文 字 行 的 高 度 是 当前 字符 高 和 此 行 高 
度 乘 数 的 乘积 。 默 认 值 是 1。 

口 ljoin : 线条 连接 的 样式 ， 可 以 用 整数 或 描述 两 种 方式 来 表达 。0 或 “round” 为 默认 值 ， 表 示 
圆 形 的 连接 ; 1 或 “mitre” 表 示 斜 接 的 连接 ; 2 或 “bevel” 表 示 斜 角 的 连接 。 

O Imitre : 行 斜 接 限制 。 此 参数 控制 线条 在 连接 时 自动 转换 成 斜面 线条 连接 。 其 值 必须 大 于 1, 
默认 值 是 10。 并 非 所 有 设备 都 将 履行 此 设置 。 

O log: 字符 串 参 数 ， 表 示 坐 标 单位 是 否 用 log10 函数 调整 。 如 果 是 “x” 则 表示 x 轴 方 向 数值 的 
单位 用 log10 函数 调整 ; 如 果 是 “y” 则 表示 y 轴 方 向 数值 的 单位 用 log10 函数 调整 ; 如 果 是 

“xy” 则 表示 两 轴 方 向 数值 的 单位 均 用 log10 函数 调整 ; 如 果 是 “” 表 示 两 轴 方 向 数值 均 为 原 
始 数 值 不 做 调整 。 我 们 以 下 列 实例 呈现 此 结果 。 


实例 ch19_7 : log 参数 的 应 用 。 


> # 绘 制 四 合 一 图 说 明 10g 参 数 

> X <- 1:10;y <- 1:10;ex <- 10^x; ey <- 10^y 

> # mai 设置 留 空 (英寸: 下 0.3 左 0.5 上 0.3 $0.2 

> par (mfrow=c(2,2) ，mai=c(0.3,0.5,0.3,0.2)) 

> plot(cbind(x,y),10g=""，main=" 标 准 单位 系统 ") 

> plot(cbind(x,ey),10g="y",main="x 标 准 单位 ，ey 取 10g10 单 位 ") 
> plot(cbind(ex,y),10g="x",main="ex 取 10g10 单 位 ，y 标 准 单位 ") 
> plot(cbind(ex,ey) , log2"xy" ,main="ex 与 ey 均 取 10g10 单 位 ") 
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[执行 结果 ] 
x 标 准 单位 ，ey 取 log10 单 位 





1e407 


2.45 8 10 


1e+01 


2.46 8 10 
1e«07 





1e+01 


1e+01 1e+03 1e405 1e407 1e+09 1e+01 1e+03 1e+05 1e407 1e+09 
Q ly: 直线 的 样式 。 以 整数 表达 COS 空白 , 1= 默认 值 实 线 , 2= 虚线 ,3= ARR ,4= 点 虚线 ,5= 长 
虚线 , 6= 两 虚 点 线 ) 也 可 以 使 用 与 上 列 数值 对 应 的 的 英文 描述 字 “blank”、“solid”、“dashed”、 
“dotted”、“dotdash”、“longdash” 和 “twodash”"。 其 中 空白 或 ”blank” 指 的 是 绘制 看 不 见 的 线 。 
口 lwd : 线条 的 宽度 ， 默 认 值 是 1。 通 常 使 用 不 小 于 1 的 数值 。 
O mai: 一 个 含 4 个 数值 的 向 量 e ( 底 、 左 、 顶 、 右 ) 给 定 边 界 的 尺寸 ， 单位 是 英寸 ， 如 下 图 所 示 。 
口 mar : 一 个 含 4 个 数值 的 向 量 e ( 底 、 左 、 顶 、 右 ) 给 定 边界 的 尺寸 ， 单 位 是 文字 高 或 宽度 的 
数值 ， 默 认 数值 为 c ( 5, 4, 4, 2 )+ 0.1， 如 下 图 所 示 。 


mai[3] 或 mar[3] 





绘图 区 (plot region) 











mai[1] 3 mar[1] 





O mex : 用 来 描述 影响 坐标 系统 的 页 边 距 坐标 字符 大 小 的 因素 。 这 不 会 更 改 字体 大 小 ， 而 指定 
的 大 小 的 字体 ( 如 esi 的 倍数 ) 用 于 mar (或 mai) Fl oma (或 omi ) 之 间 的 转换 。 当 设备 新 建 
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时 会 默认 为 1， 并 且 在 布局 (layout) 更 改 时 ， 同 时 重 置 cex。 

O mfcol, mfrow : 以 一 个 有 两 个 数值 的 向 量 c Cnr, ne ) 表达 在 一 个 页 面 上 绘制 的 总 图 数 ， 等 于 
nr*nc ; mfcol 是 依照 列 优先 排列 、mfrow 是 依照 行 优先 排列 。 若 一 个 布局 (layout )， 恰 好 是 两 
个 行 和 列 ， 则 “cex” 的 数值 减少 到 0.83; 如 果 有 三 个 或 更 多 的 行 或 列 ， 则 “cex” 系 数 会 折 
减 到 0.66。 默 认 的 cex 值 为 1。 

O mfg : 在 mfeol 或 mfrow 已 设置 的 前 提 下 ，e (ij ) 向 量 表示 下 一 步 要 被 绘制 的 是 哪 一 个 图 形 。 
其 中 i 和 j 表示 是 在 多 图 布局 下 的 第 i 行 第 j 列 的 那个 图 框 内 绘图 ， 为 了 与 S 兼 容 ， 也 接受 c(i, 
j nr. ne) 形式 ， 当 nr 和 ne 应 该 是 当前 多 图 布局 下 的 总 行 数 和 总 列 数 。 若 不 匹配 将 被 忽略 。 

O mgp: 边缘 线 ( 在 mex 单位 系统 ) 坐标 轴 标 题 、 坐 标 轴 标 签 和 轴线 。mgp[1] 影 响 标题 ， 
mgp[2:3] 影响 轴 标 签 和 轴线 。 默 认 值 是 c(3，1，0 )。 

口 mkh : 当 peh 的 值 是 一 个 整数 时 ， 绘 制 符号 的 高 度 以 英寸 为 单位 。 

O new : 默认 的 逻辑 值 为 FALSE。 如 果 设 置 为 TRUE 时 ， 则 下 一 个 高 级 绘制 命令 不 清除 已 经 绘 
制 的 图 ， 直接 在 新 设备 上 绘制 。 如 果 当 前 设备 不 支持 高 级 绘图 ， 使 用 new= TRUE 会 产生 错误 


信息 。 


实例 ch19 8 : 了 解 fig 与 mai 参数 的 使 用 。 


> # 使 用 par 与 fig 参 数 ， 绘 出 对 应 的 三 种 图 形 

> # 左 下 角 绘制 0.75*0. 75 的 直方 图 ， 并 设 定 边界 的 留 空 

> par(fig=c(0, 0.75, 0, 0.75),mai=c(0.4,0,0.3,0.1),new=TRUE) 
> plot(crabs[,3:4] ,main="FL 对 CL 的 散布 图 ") 

> # 左 上 角 绘制 0.75*0.25 的 散布 图 ， 并 设 定 边 界 的 留 空 

> #ew=TRUE 在 原 绘图 上 继续 绘制 

> par(fig=c(0, 0.75, 0.75, 1),mai-c(0,0,0.3,0.1),new-TRUE) 
> hist(crabs$CL,axes-FALSE, main-"CLBJÉ(75[E]") 

> # 右 下 角 绘制 0.25*0. 75 的 箱 形 图 ， 并 设 定 边界 的 留 空 

> par(fig=c(0.75, 1, 0, 0.75),mai=c(0.4,0,0.3,0),new=TRUE) 
> boxplot(crabs$FL ,main="FL 的 箱 形 图 "》 


T 
—— LÀ 


FL 对 CL 的 散布 图 


[ 执行 结果 ] 
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O oma : 以 几 个 字母 宽 或 高 的 向 量 设置 外 围 边 界 的 尺寸 , c (下 , 左 , 上 , 右 )。 

O omd : 以 一 个 向 量 的 形式 e ( xl, x2, yl, y2 ) 给 绘图 区 内 边缘 的 区 域 放 置 标准 单位 坐标 ，4 个 数 
值 都 是 在 [0, 1] 范围 内 的 设备 区 域 。 

O omi : 以 英寸 向 量 形式 设置 外 围 边 界 的 尺寸 , c (下 , 左 , 上 , 右 )， 单 位 为 英寸 。 

O page: 只 读 逻 辑 参数 ，TRUE 表示 在 下 一 次 调用 时 新 建 一 个 新 页 面 。 

O peh: 表示 绘图 使 用 的 字母 或 特殊 符号 ， 仅 能 是 数值 或 单一 字母 ， 有 些 状 况 下 ， 可 以 使 用 重复 
的 数值 向 量 。 

O pin: 当前 绘图 区 的 尺寸 ( 宽 与 高 )， 以 英寸 为 单位 。 

O plt: 以 向 量 e ( xl, x2, yl, y2) 表达 的 当前 绘图 区 。 

O ps: 文字 的 大 小 ， 以 整数 值 表示 ， 单 位 是 bp。 不 同 的 设备 可 能 略 有 差异 ， 多 数 的 设备 ， 单 位 
是 1bp=1/72 英寸 。 

O pty: 以 单一 字母 表示 绘图 的 区 域 ,“s” 产 生 正 方形 区 域 而 “m” 则 产生 利用 率 最 高 的 图 形 
区 域 。 

O smo: 以 数值 表达 圆 弧 或 圆 形 的 平滑 程度 。 

O srt: 字母 旋转 的 角度 ， 不 是 使 用 角度 而 是 使 用 文字 描述 。 

Q tek : 刻度 线 的 长 度 将 标记 较 小 的 一 小 部 分 的 宽度 或 高 度 的 图 形 区 域 。tck = 1 表示 完整 绘制 网 
格 线 ; 0 < tek < 1 表示 绘制 部 分 的 网 格 线 ; tck=0 不 绘制 网 格 线 。 


实例 ch19 9 : 使 用 四 合 一 图 说 明 tek 参数 的 使 用 。 

















> # 绘 制 四 合 一 图 说 明 tck 参 数 

> par(mfrow-c(2,2)) 

> plot(1:10,tck=1,main="tck=1 完 整 网 格 线 ") 

> plot(1:10, tck=0.6,mai -0.6 长 宽 6 成 网 格 线 ") 
> plot(1:10,tck=0.2,main="tck=0.2 长 宽 2 成 网 格 线 ") 
> plot(1:10,tck=0,main="tck=0 无 网 格 线 ") 




















[执行 结果 ] 
tck=1 完 整 网 格 线 tck=0.6 长 宽 6 成 网 格 线 
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tck=0.2 长 宽 2 成 网 格 线 tck=0 无 网 格 线 








24 6 8 10 
o 
2468 8 10 
o 





Index Index 


Q tel : 刻度 标示 线 的 长 度 为 文本 行 的 高 度 的 一 小 部 分 。 默 认 值 是 -0.5， 方 向 为 指向 图 外 。 设 置 
tel = 1 则 长 度 为 文字 的 全 高 度 并 指向 图 内 。 


实例 ch19_10 : 使 用 四 合 一 图 说 明 tcl 参数 的 使 用 。 


> # 绘 制 四 合 一 图 说 明 tc1 参 数 

> par(mfrow-c(2,2)) 

> plot(1:10,tc1=-0.5,main="tc1=-0.5， 标 示 线 向 ?0 .5 字 高 ") 
> plot(1:10,tc1=-1,main="tc1=-1， 标 示 线 向 9 八字 高 ") 

> plot(1:10,tc1=0.5,main="tc1=0.5， 标 示 线 向 内 0.5 字 高 ") 
> plot(1:10,tc1=1,main="tc1=1， 标示 线 向 内 1 字 高 ") 



































[ 执行 结果 ] 
5 tc=-0.5， 标 示 线 向 外 0.5 字 高 tcF=-1， 标 示 线 向 外 1 字 高 
^ 5 T Y T ^ 1 T T T 
2 4 6 8 10 2 4 6 8 10 
Index Index 
tcl=0.5， 标 示 线 向 内 0.5 字 高 tcF=1， 标 示 线 向 内 1 字 高 
5 5 





24 5 8 10 
2.4 8 8 10 





Index Index 


O usr: 以 数值 向 量 c ( xl, x2, yl, y2) 规定 使 用 者 自行 定义 图 形 区 域 坐标 的 极限 值 。 当 将 log PR 
数 应 用 到 坐标 系统 时 ， 例 如 ，par ( xlog=TRUE ) 或 par ( ylog=TRUE )， 则 相对 应 的 x- 界线 或 
者 y- 界线 也 会 调整 为 10*par C "usr" ) [1:2] 或 10* par ( “usr” ) [3:4]。 

口 xaxs : 作用 于 工 轴 的 轴 间 隔 计算 的 方式 。 可 能 的 值 为 “r”“i” 等 。 方 式 通常 控制 一 系列 的 数 
据 的 范围 ( xlim ), 方式 “r”( regular) 首先 通过 在 每 个 末端 的 按 49 扩展 数据 区 域 ， 然 后 查 
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找 扩展 范围 内 适合 的 最 佳 标签 与 坐标 轴 。 方 式 “i” (intemal) 是 查找 原始 数据 范围 内 适合 最 
佳 标签 与 坐标 轴 。 
口 xaxt : 指定 x 轴 类 型 的 字符 。 指 定 “n” 表 示 取 消 绘制 轴 。 标 准 值 是 “s”"， 其 他 诸如 “1” 和 
“t” 都 可 接受 , 除了 “n” 之 外 的 任何 值 意味 着 要 绘制 x 轴线 。 
口 xlog : WHE, H TRUE 则 表示 x 轴 的 数值 是 以 取 log 函数 后 的 数值 为 尺度 ， 默 认 是 FALSE, 
O xpd : 一 个 逻辑 值 或 NA。 如果 为 FALSE， 则 图 形 被 剪 切 粘贴 到 绘图 区 域 (plot region ) ; 如 果 
为 TRUE， 则 图 形 被 剪 切 粘贴 到 图 区 域 ( figure region ) ; 如 果 是 NA， 则 图 形 被 剪 切 粘贴 到 设 
备 区 域 。 
O yaxs : 应 用 于 y 轴 的 轴 间 隔 计算 的 方式 。 请 参考 xaxs。 
yaxt : 指定 y 轴 类 型 的 字符 。 请 参考 xaxt。 
口 ylog : 逻辑 值 ， 若 设 为 TRUE 则 表示 y 轴 的 数值 是 以 取 log 函数 后 的 数值 为 尺度 ， 默 认 是 
FALSE。 
实例 ch19_11 : 使 用 四 合 一 图 说 明 xlog 和 ylog 参数 的 使 用 。 
> # 给 制 四 合 一 图 说 明 x1og 和 y1og 参 数 的 使 用 
> x <- 1:10;y <- 1:10;ex <- 10^x; ey <- 10^y 
> # mai 设置 留 空 (英寸 ): 下 0.3 左 0.5 上 0.3 右 0.2 
> par (mfrow=c(2,2), mai=c(0.3,0.5,0.3,0.2)) 


> plot(Ccbind(x,y)，main=" 标 准 单位 系统 ") 
> plot(cbind(x,ey),ylog-TRUE,usrzc(1,10,1,10), 





口 
































+ main="X 标 准 单位 ，ey 取 1og 单 位 ") 
> plot(cbind(ex,y),xlog-TRUE,usrzc(1,10,1,10), 
+ main="ex 取 1og 单 位 ,y 标 准 单位 ") 
> plot(cbind(ex,ey), xlog-TRUE, ylog-TRUE, 
* usr-c(1,10,1,10), ，main="ex 与 ey 均 取 1og 单 位 ") 
> 
[ 执行 结果 ] 
标准 单位 条 统 x 标准 单位 ，ey 取 log 单 位 
o 
g 27 $ $ 
o 
P -° E 
o e 
- o 
N o ? 8 kd 
T T T T à 2 z 2 
2 4 6 8 10 4 8 10 
x x 
ex 取 log 单 位 ，y 标 准 单位 ex 与 ey 均 取 log 单 位 
e m 5 o 
e 9 
o 
o jo » 
o & 
= o 
aṣ 8 o 
T T T T i s T T T T T 
De+00 4e+09 8e+09 0e+00 4e+09 Be+09 
ex ex 
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实例 ch19_12 : 绘图 各 种 参数 的 混合 使 用 说 明 。 


> # 下 留 空 .2 英寸 ' 左 留 空 1. 5 英寸 上 留 空 1. 5 英寸 ， 右 留 空 0. 5 英寸 
> par(mfcol=c(1,1),mai=c(1.2,1.5,1.5,0.5)) 
> plot(1:16,pch=1:16,cex=1+(1:16)/8,xlim=c(-6,16) ,xlabz"") 
> abline(h-1:16, 1ty=1:16, col=1:16,1wd=1+(1:16)/4) 
> text(1:16,16:1,labels-as.character(16:1),font-1:8) 
> lagana -6,16.5,legend-16:1,co1-16:1,1ty-16:1, 
1wd=seq(5， 1.25，-0.25)，cex=0.8,bty="o" ,bg="white") 
> > tle(main=" 绘图 的 各 项 主要 参数 参照 Nn 


+ 留 空 (英寸 ): 下 1.2 左 1.5 上 1.5 40.5", 
* sub="co1: 颜 色 1ty, 1wd: 线条 种 类 、 宽 度 , legend: 图例") 
> 
[执行 结果 ] 
绘图 的 各 项 主要 参数 参照 


留 空 (英寸 ): 下 1.2 左 1.5 上 1.5 右 0.5 





1:16 








co 颜色 IlyIwd 线条 种 类 、 宽 度 ,egend 图 例 


19-1-3 layout O 函数 的 设置 
以 下 3 个 函数 主要 用 来 设置 较 复 杂 ， 且 不 对 称 的 绘图 ，layout O 函数 的 使 用 格式 如 下 所 示 。 


layout ( mat, widths = rep.int ( 1, ncol ( mat ) ) , 

heights = rep.int ( 1, nrow ( mat )) , respect = FALSE ) 
layout.show (n = 1) 
lcm (x ) 

O mat : 为 一 个 矩阵 ， 指 定 下 一 个 N 矩阵 对 象 的 数字 在 输出 设备 中 的 位 置 。 和 矩阵 中 的 每 个 值 必须 
是 0 或 一 个 正 整数 。 如 果 N 是 矩阵 中 最 大 的 正 整数 ， 那 么 整数 (UL. s N-1) 也 必须 在 矩阵 中 
至 少 出 现 一 次 。 数 字 也 可 以 重复 ,代表 同 一 个 图 ， 面 积 扩 大 。 

O widths : 设置 设备 中 的 列 的 宽度 值 的 向 量 。 可 以 指定 相对 宽度 的 数值 。 也 可 以 使 用 lem O PK 
数 来 指定 绝对 宽度 ( 厘米 )。 
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O heights : 设置 设备 中 的 行 的 高 度 值 的 向 量 。 可 以 指定 相对 高 度 的 数值 。 也 可 以 使 用 lem O PR 
数 来 指定 绝对 高 度 ( 厘米 )。 

O respect : 逻辑 值 或 一 个 矩阵 对 象 。 若 为 TRUE 则 表示 x 轴 与 y 轴 所 使 用 的 长 度 单位 一 致 ; 默 
认为 FALSE。 如 果 是 矩阵 的 话 ， 那 么 它 必 须 与 前 面 的 mat 矩阵 具有 相同 的 维度 且 和 矩阵 中 的 每 
个 值 必须 是 0 或 1。 

Q n : 绘图 图 形 的 数目 。 

口 x : 以 厘米 为 单位 的 长 度 。 


实例 ch19_13 : 以 layout () 函数 呈现 3 种 布局 的 应 用 。 


> fch19 13 

> # 将 图 分 割 成 2*2 四 块 

> # 图 1 与 图 2 绘制 在 第 一 行 

> # 图 3 重复 两 次 表示 为 同一 图 在 第 2 行 
> 

>. 

- 





























layout(matrix(c(1,2,3,3), 2, 2, byrow - TRUE)) 
# 显 示 此 三 图 的 布局 
layout.show(3) 





[执行 结果 ] 





> # 将 图 分 割 成 2*2 四 块 

> # 图 1 重复 两 次 表示 为 同一 图 在 第 1 行 

> P 第 二 行 0 表示 不 绘图 ， 2 要 绘图 

> # x 轴 与 y 轴 所 使 用 的 长 度 单位 一 致 

> 新 | 两 图 宽度 比 为 1: 3; 行 两 图 高 度 比 为 1: 2 

> nf <- layout(matrix(c(1,1,0,2), 2, 2, byrow = TRUE), 
* widthszc(1,3) , heights- c(1,2),respect = TRUE) 
> # 显 示 此 三 图 的 布局 

> layout.show(nf) 
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[执行 结果 ] 
> # ”产生 单一 图 形 长 与 宽 ， 均 为 5cm 显 示 出 一 个 正方 形 
> nf <- layout(matrix(1), widths = 1cm(5)，heights = lcm(5)) 
> # 显 示 此 图 的 布局 
> layout. show(nf) 


[执行 结果 ] 


接 下 来 我 们 以 MASS 套件 内 的 crabs 数据 框 内 的 FL 与 CL 两 个 变量 对 象 来 绘制 相对 应 的 散 点 
Fd, 并 在 此 图 上 方 将 所 对 应 的 CL 变量 绘制 成 一 张 直方 图 ， 同 时 在 散布 图 的 右 方 ， 也 绘制 相对 应 的 
FL 的 箱 形 图 。 


实例 ch19_14 : 


- 
- 
> 
+ 
> 
> 
> 
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library (MASS) # 加 载 R 套 件 


绘图 区 含有 3 张 图 的 应 用 。 


# 设 定 绘图 的 在 局 ; 共 绘 出 对 应 的 三 种 图 形 





Jayout(matrix(c(2,0,1,3), 2, 2, 


byrow = TRUE) 


widths-c(3,1) , heights- c(1, D respect = TRUE) 
plot(crabs[,3:4] ,main="FL 对 CL 的 数 点 图 
hist(crabs$CL ,main=" "CL 的 直方 到 ” ) 


boxplot(crabs$FL ,main="FL 的 箱 形 


EI") 
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[执行 结果 ] 






































mt! T T 1 
10 20 30 40 50 
FL 对 CL 的 散 点 图 FL 的 箱 形 图 
3 
s i 
388 o ' 
j sd J i 
8 ed o NA | 
$0 o i 
contingent? 9? 5 : 
E P qu, oo? 
0000 e 
2 ooo 002080000? 000000000” o. 
ut o? 
P aad T 
oo o9 0090999 i 
o So p o | 
e d i 
d ! 
K Es 
o 
T T T T T T 
0 10 20 30 40 50 


高 级 绘图 


我 们 在 前 一 章 常用 的 统计 绘图 中 已 经 讲解 并 使 用 了 许多 的 高 级 绘图 函数 ， 例 如 :plot O, pie O, 
pairs ()、qqnorm ()、qqplot ()、qqline (), hist ()、dotchart (), barplot () 与 boxplot O 等 等 。 在 此 
我 们 再 列 出 其 他 相关 的 高 级 绘图 函数 。 


19-2-1 曲线 绘图 curve © 


curve () 主要 是 用 来 绘制 给 定 函数 的 曲线 图 ， 它 的 使 用 格式 如 下 图 所 示 。 
curve ( expr, from = NULL, to = NULL, n = 101, add = FALSE, 
type = "I" , xname = “x” , xlab = xname, ylab = NULL, 
log = NULL, xlim = NULL, ...) 
O expr: 函数 名 称 、 表 达 式 或 者 自 定义 函数 名 称 ， 能 够 通过 计算 得 到 数值 向 量 的 R 对 象 。 
口 from, to : 绘图 的 起 点 与 终点 。 
口 n : 所 绘制 的 点 数 的 总 数 。 
O add : 逻辑 参数 ， 若 为 TRUE 则 将 会 在 已 存在 的 图 内 绘图 ; 若 为 NA 则 将 会 绘制 新 图 ， 也 会 延 
续 之 前 所 规定 的 范围 与 log 参数 等 设置 。 
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O xname : 字符 串 ， 给 予 所 使 用 变量 坐标 名 称 。 但 无 法 与 表达 式 共同 使 用 。 
O xlim, xlab, ylab, log, … : x 界限 、x 标 签 、y 标签 、 坐 标 值 的 log 调整 等 之 前 已 叙述 过 。 
实例 ch19_15 : 以 下 面 四 合 一 图 形 来 呈现 curve () 函数 各 项 参数 的 使 用 方式 。 


> par (mfcol=c(2,2),mai=c(0.9,0.9,0.9,0.9)) 
> # 自 定义 标准 常态 函数 
> mynorm <- function(x){exp(-1/2*x^2)/sqrt(2*pi)} 
> curve(sin,from=0, to= pi，n=100,xname=" 正 弦 ") 
> Curve(x^2-2*x,0, 3, xlabz"x^2-2*x") 
> curve(mynorm, -3, 3, 300, main="ġ Æ X E5") 
> curve(exp(x*5),0, 10, logs"y",xlabz"exp (x«5) » (&szlogigs") 
[执行 结果 ] 
自 定义 正 态 
= 
a 28 
go g 
B. $2 
s cö EI 
- E 
o o 
S E 
00 10 20 30 3 101223 
IER x 
o 
e 了 
2 Ei 
* o $ 
a 
< E 
00 10 20 30 7 024 5681 
x2-2^x. exp(x*5) > 值 经 log 调整 


实例 ch19 16.R : (E crabs 数据 框 的 5 个 数值 变量 对 象 ， 在 同一 张 图 内 根据 变量 所 计算 出 来 的 
平均 数 mu 与 标准 偏差 s， 利 用 curve O 函数 来 绘制 5 张 正 态 分 布 的 密度 函数 图 ， 在 这 里 我 们 使 用 
了 参数 add=TRUE， 能 够 在 绘制 好 的 曲线 图 内 继续 增加 曲线 。 我 们 仍然 使 用 前 面 所 提 到 的 legend 
与 title 两 个 函数 。 


# 
# 实例 ch19_16.R 
# 


1 
2 
3 
4- mynorm2 <- function(x,XX)( 

5 mu <- meanCXX) 

6 S <- sd(XX) 

7 exp(-1/2*(x-mu)^2)/sqrt(2*pi)/s 

9- ch19 16 <- function (Ç 2 1 
10 # 计 算出 crabs 数 据 框 的 最 小 与 最 大 值 
11 min <- minCcrabs[,4:8]); max «-max(crabs[,4:8]) 
12 # 绘 出 第 一 个 变量 FL 的 正 态 分 布 密度 函数 图 
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13 curve(mynorm2Z(x,crabsSFL),min, max,ylim-c(0,0.15), 

14 lty-1,col-1,add-FALSE) 

15 # 在 图 上 持续 加 上 RW,CL,COW BD 等 四 个 变量 的 正 态 分 布 密度 函数 图 
16 ”curve(mynorm2Cx,crabsSRW) ,min，max,1Lty=2,coL=2,add=TRUE) 
17 curve(mynorm2Z(x,crabs$CL),min, max,lty-3,col-3,add-TRUE) 
18 curve(mynorm2(x,crabs$CW) min, max,lty-4,col-4,add-TRUE) 
19 curve(mynorm2(x,crabs$BD),min, max,lty-5,col-5,add-TRUE) 
20 # 加 入 图 例 说 明 ， 以 便 比 较 了 解 

21  legend(35,0.15,legend-names(crabs)[4:8],col-1:5,1ty-1:5, 





























22 cex-1) 
23 titte(main="crabs 数 据 框 5 个 数值 变量 的 比较 ",sub=" 大 小 (mm)") 
24 } 
[执行 结果 ] 
R R Graphics Device2 ACTE) Ee 
crabs 获 据 框 5 个 数值 变量 的 比较 
— FL 
c RW 
E CL 
g 5] H HN cw 
E BD 
& 
£ 
E 8. 
E 1 T m T T T T 
10 20 30 40 50 
x 
大 mm) 








19-2-2 绘图 函数 coplot O 


coplot () 是 一 种 绘制 条 件 式 散 点 图 的 函数 ， 在 散 点 图 中 加 入 第 3 个 因子 变量 ， 可 以 很 容易 区 
分 与 比较 因子 之 间 的 分 布 情况 。 它 的 使 用 格式 如 下 所 示 。 
coplot ( formula, data, given.values, panel = points, rows, columns, 
show.given = TRUE, col = par ( "fg" ) , pch = par ( “pch” ) , 
bar.bg = c ( num = gray (0.8) , fac = gray (0.95)) , 
xlab = c ( x. name, paste ( "Given :" , a.name )) , 
ylab = c ( y.name, paste ( "Given ;" , b.name)) , 
subscripts = FALSE, 


number = 6, xlim, ylim, ... ) 
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O formula : 从 公式 形式 “y ~x1b” 表 示 x 与 y 两 个 变量 对 应 于 所 给 予 的 因子 变量 b。 以 公式 形式 
“y ~x1a*b” 表 示 x 5 y 两 个 变量 对 应 于 所 给 予 的 两 个 因子 变量 ，a 与 b。 

O data : 所 使 用 数据 框 的 名 称 ， 可 以 使 公式 变 得 简单 。 

口 given.values : 使 用 串 行 给 条 件 变量 再 加 筛选 条 件 。 

O panel : 以 一 个 函数 ( x, y, col, peh, … ) 给 出 要 在 显示 器 中 的 每 个 面板 进行 的 操作 。 

口 rows, columns : 规定 每 一 个 面板 的 行 数 与 列 数 。 

口 show.given : 逻辑 值 参数 ， 表 示 所 对 应 的 因子 变量 是 否 显示 。 

O col, pch : 绘图 使 用 的 颜色 与 字母 或 符号 。 

口 bar.bg : 向 量 内 含 两 种 对 象 “num”( 数值 ) 和 “fac”( 因子 )， 用 来 给 予 条 件 变量 的 条 块 背景 


a 


口 
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颜色 。 


xlab, ylab, xlim, ylim : x 轴 标 签 y 轴 标 签 x 的 范围 、y 的 范围 。 
O subscripts : 逻辑 值 ， 若 为 TRUE 则 面板 函数 将 被 给 予 第 三 个 参数 ， 将 下 一 下 目标 数据 传递 


到 该 面板 。 


number : 当 条 件 变量 不 为 因子 变量 时 ， 指 定 一 个 整数 规定 条 件 变量 的 分 类 数 。 
接 下 来 我 们 以 一 因子 条 件 、 两 因子 条 件 与 再 筛选 来 呈现 coplot O 如 何 绘制 条 件 式 散 点 图 。 
实例 ch19_17 : 使 用 coplot O 函数 绘制 单一 因子 条 件 散 点 图 。 








> # 根 据 不 | 








的 sp 与 sex 值 产生 一 个 一 维 因 子 变量 


> crabs$ss <- as.factor(paste(crabs$sp, crabs$sex, sep="-")) 
> #cop1ot 单 一 条 件 因 子 艇 点 图 vs ss 

> coplot(CL-FL|ss,datascrabs,bar.bgzc(facsz"red")) 

> title("cop1ot 单 一 条 件 因 子 散 点 图 vs ss") 


[执行 结果 ] 





























Given: ss 
coplot 单 一 条 件 因 子 散 点 图 vs ss 
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实例 ch19_18 : 使 用 coplot () 函数 绘制 两 因子 条 件 散 点 图 。 











> FP 








子 条 件 式 散 点 图 vs sp*sex 





> coplot(CL~FL|sp*sex,data=crabs, col-3, pch-21) 
> title(《"cop1ot 两 因子 条 件 式 艇 点 图 vs sp*sex") 








[执行 结果 ] 
Given: sp 
coplot 两 因子 条 件 式 散 = vs sp*sex 
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实例 ch19. 19 : 使 用 coplot O 函数 绘制 依 given.values 筛选 的 散 点 图 。 


> & cop1ot 条 件 式 散 点 图 vs ss BifKgiven.valuesfifit 
> coplot(CL~FL|ss,data=crabs, given.values=1ist(c("B-F","0-M","0-F"))) 
> title("cop1ot 条 件 式 散 点 图 vs ss BifKgiven.valuesfmix") 


[执行 结果 ] 


Given: ss 
copot EREL E vs ss Pi fkgiven.valuesfi e 
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实例 ch19_20 : 另 一 个 使 用 coplot () 函数 执行 再 依 given.values 筛选 绘图 的 应 用 。 


> & cop1ot 条 件 式 艇 点 图 vs sp*sex 再 依 given.values 筛 选 
> coplot(CL-FL|sp*sex,data-crabs, given.values-list(c("B"),c("M","F"))) 
> title("cop1ot 条 件 式 散 点 图 vs sp*sex Bifkgiven.valuesipit") 


























[执行 结果 ] 
Given: sp 
coplot 条 件 式 艇 点 图 vs sp*sex Rf fkgiven.values$ig 3 
a 
1 15 z 
S50 [s 
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19-2-3 3D 绘图 函数 


我 们 想 要 在 2D 平面 上 来 呈现 3D 的 效果 ， 就 必须 要 加 上 特殊 的 技巧 ， 例 如 ， 颜 色 、 线 条 以 及 
网 格 线 明暗 ， 等 等 。R 绘制 3D 图 形 的 函数 主要 有 3 个 : persp O, contour () 5j image ()。 这 3 种 
3D 绘图 函数 都 需要 给 予 两 组 数量 的 数值 向 量 来 定义 两 个 方向 上 的 格 点 ， 再 使 用 outer O 函数 求解 
出 每 一 个 格 点 的 高 度 ， 以 确定 所 有 格 点 的 坐标 位 置 ， 才 能 够 进行 正式 的 3D 立体 图 绘制 。 首 先 来 介 
绍 persp () 透视 图 ， 它 的 使 用 格式 如 下 所 示 。 

persp (x = seq ( 0, 1, length.out = nrow (z)) ,y=seq (0,1,lengthout=ncol(z)) , 

z, xlim = range ( x à. ylim = range ( y ) , zlim = range ( z, na.rm = TRUE Jo 
xlab = NULL, ylab = NULL, zlab = NULL, main = NULL, sub = NULL, 
theta = 0, phi = 15, r = sqrt (3) ,d= 1, scale = TRUE, expand = 1, 
col =” white" , border = NULL, ltheta = —135, lphi = 0, shade = NA, 
box = TRUE, axes = TRUE, nticks = 5, ticktype =” simple” 3x2) 
O x, y: HGE x, y 两 个 方向 网 格 线 排序 的 数值 向 量 。 
口 z : z 为 一 个 矩阵 ， 列 数 与 x 向 量 相同 ， 行 数 与 y 向 量 相同 。 
O xlim, ylim, zlim, xlab, ylab, zlab : x, y, z 三 个 方向 的 界线 向 量 与 字符 串 标 签 。 
口 main 、sub : 主 标题 与 副标题 。 
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口 theta, phi : 定义 查看 立体 图 方向 的 角度 与 转动 的 角度 。 

D r: 从 绘制 盒 框 的 中 心 至 视点 的 距离 。 

口 d : 一 个 值 ， 可 以 用 于 变换 不 同 的 透视 强度 。 大 于 1 的 d 值 会 减弱 透视 效果 而 小 于 1 的 d 值 会 
增强 透视 效果 。 

O scale : 在 查看 之 前 ， 定 义 表面 点 的 x、y 和 z 坐标 转换 到 [0，1] EXTR]. 4737 SR (L7 TRUE, 
Wü) x. y 和 z 坐 标的 转换 各 自分 开 。 如 果 逻 辑 值 为 FALSE， 则 坐标 在 进行 缩放 时 ， 会 保留 纵横 
比 。 主 要 是 便于 信息 的 呈现 。 

O expand : 适用 于 z 坐标 的 缩放 比例 。 经 常用 0 < expand < 1 的 数值 以 便 缩小 z 方向 的 绘图 框 中 
的 格 点 。 

口 col : 立体 图 表面 的 颜色 。 

O border : 表面 线条 的 颜色 。 默 认 值 为 NULL， 对 应 于 par (“fg”)。 若 为 NA 值 将 禁用 绘图 边框 ， 
这 样 有 利于 表面 着 色 。 

口 ltheta、lphi : 如 果 指 定 ltheta 和 lphi 为 有 限 值 ， 则 表面 产生 阴影 ， 好 像 它 正在 受到 从 指定 的 方 
位 ltheta 和 纬 线 lphi 方向 的 照明 。 

O shade : 表面 格 点 的 阴影 的 计算 公式 为 (( 1+d ) /2 ) shade， 其 中 d 是 该 方向 的 单位 向 量 ， 与 在 
光源 的 方向 的 单位 向 量 的 点 积 。 值 接近 1 时 ， 表 示 类 似 于 一 个 点 光源 模型 ; 而 0 值 则 表示 没 
有 阴影 产生 ; 0.5 至 0.75 范围 中 的 值 则 表示 提供 一 个 近似 的 日 光照 明 。 

口 box : 表示 显示 定 界 框 的 表面 。 默 认 值 为 TRUE-。 

O axes : 表示 将 刻度 和 标签 添加 到 框 中 。 默 认 值 为 TRUE。 如 果 逻 辑 值 是 FALSE 则 不 绘制 刻度 
或 标签 。 

O ticktype : 为 字符 串 。 若 为 “simple” 则 绘制 平行 于 轴 的 箭头 来 表示 方向 的 延伸 ; 若 为 

“detailed” 则 按 正常 2D 刻度 绘制 。 
O nticks : 在 坐标 轴 上 绘制 刻度 线 的 大 约 数目 。 如 果 ticktype 是 “simple” 则 不 起 作用 。 
接着 我 们 介绍 如 何 使 用 contour () 绘制 等 高 线 ， 它 的 使 用 格式 如 下 所 示 。 与 persp () 相同 的 
参数 部 分 ， 我 们 就 省 略 不 再 列 出 来 了 。 
contour (x = seq ( 0,1,length.out7 nrow (z)) ,y =seq (0,1,length.out= ncol (z)) , 
z, nlevels = 10, levels = pretty ( zlim, nlevels ) , labels = NULL, 
xlim = range ( x, finite = TRUE ) , ylim = range ( y, finite = TRUE ) , 
zlim = range ( z, finite = TRUE ) , labcex = 0.6, drawlabels = TRUE, 
method = “flattest” ,vfont, axes = TRUE, frame.plot = axes, 


col = par ( "fg" f lty = par ( “lty” ) , lwd = par ( “Iwd” ) , add = FALSE, ...) 


427 


428 


R 语言 一 一 迈 向 大 数据 之 路 


口 nlevels, levels : 等 高 线 的 数量 ， 两 者 择 一 使 用 。 
口 labels : 给 出 等 高 线 标签 的 向 量 。 如 果 为 NULL， 则 以 水 平 高 度 作为 标签 。 
O labcex : 等 高 线 标签 的 绝对 值 。 不 同 于 相对 值 的 par (“cex” )。 
口 drawlabels : 逻辑 值 若 为 TRUE 则 绘制 等 高 线 标签 ， 若 为 FALSE 则 不 绘 。 
O method : 字符 串 ， 指 定 标签 绘 在 哪里 的 。 可 能 的 值 为 “simple”"、“edge” 和 “fatest”( 默认 值 ) 
口 vfont : 默认 为 NULL， 则 目前 使 用 的 字体 被 用 于 等 高 线 标签 。 
O axes, frame.plot : 逻辑 值 ， 指 示 是 否 应 绘制 轴 或 框 。 
O col, lty, Iwd : 等 高 线 的 颜色 、 样 式 与 线 宽度 。 
O add : 逻辑 值 ， 若 add = TRUE 则 表示 将 图 绘 至 已 经 绘 好 的 图 内 。 
第 3 个 ,我 们 要 介绍 image O 函数 ， 它 的 使 用 格式 如 下 所 示 。 与 persp 相同 的 参数 部 分 ， 我 
们 就 省 略 不 再 列 出 来 了 。 
image ( x, y, z, zlim, xlim, ylim, col = heat.colors ( 12) , 
add = FALSE, xaxs = "i" ,yaxs = "i" , xlab, ylab, 
breaks, oldstyle = FALSE, useRaster, … ) 
O col : 颜色 ， 例 如 由 rainbow (), heat.colors (), topo.colors (), terrain.colors () 或 类 似 的 函数 生成 
的 列表 。 
口 xaxs, yaxs : x FI y 轴 的 样式 。 
O breaks : 一 套 代表 颜色 的 按 递增 顺序 排列 的 有 限 数字 断 点 ， 必 须 比 使 用 到 的 颜色 多 一 个 断 点 。 
若 使 用 未 排序 的 向 量 ， 则 会 产生 一 个 警告 。 
口 oldstyle : 逻辑 值 。 如 果 为 TRUE 则 颜色 间隔 的 中 点 是 均匀 的 。 默 认 设置 是 具有 相等 的 限制 长 
度 之 间 的 颜色 间隔 。 
口 useRaster : 逻辑 值 。 如 果 为 TRUE， 则 用 位 图 光栅 代替 多 边 形 绘制 图 像 。 
实例 ch19_21.R : 以 四 合 一 的 4 个 图 形 套用 以 上 3 种 3D 绘图 函数 ， 并 配合 使 用 相关 的 参数 绘制 
出 以 下 的 立体 图 。 我 们 自己 定义 了 产生 服从 正 态 分 布 的 双 变量 (x, y ) 的 机 率 密度 函数 ， 并 将 两 
者 的 标准 偏差 均 选 为 1、 平均 数 均 选 为 0， 相关 系数 参数 tho 设 为 0.5。 


实例 ch19_21.R 


1 # 
2 s 
3 # 
4 #bivariate normal pdf with tho-0.5 
5» f <- function(x,y)( 

6 exp(-2/3* (x^2-x*y«y^2))/pi/sqrt(3) 

Au 

8- ch19.21 <- function ( 51 

9 x«-seq(-3,3,0.1); y <- x # 设 定 x 与 y 在 -3 与 3 售 标准 偏差 内 
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z <- outer(x,y,f) 让 使 用 外 积 函 数 产生 z 值 

# 绘 制 2*2 四 合 一 图 设 定 下 左上 右 留 空 
par(mfrow=c(2,2),mai=c(0.3,0.2,0.3,0.2)) 

persp(Cx,y,z,main=" 透 视图 ") # 透 视图 (左上 ) ; 下 一 张 图 调整 角度 与 方向 (右上 ) 
persp(x,y,z,theta=60,phi=30,box=T,main="theta=60,phi=30,box=T") 
contour(x,y,z,main=" 等 高 线 图 ") # 等 高 线 图 (左下 ) 

image(x,y,z,main-"& EKRE"  # 色 彩 影 像 图 ( 右 下 ) 

H 


[执行 结果 ] 


theta=60,phi=30,box=T 





© 


低级 绘图 一 一 附加 图 形 于 已 绘制 完成 的 图 形 


所 谓 的 低级 绘图 就 是 辅助 高 级 绘图 ， 在 已 经 绘制 好 的 高 级 图 形 中 ,再 加 入 各 种 的 点 、 线 、 说 
明文 字 与 图 形 ， 等 等 。 其 实 我 们 在 前 一 章节 已 作 过 相当 多 的 实例 说 明 ， 下 面 我 们 就 将 这 些 低 级 绘 
图 函数 加 以 补充 实例 说 明 。 


19-3-1 points () AŽ text O 函数 


points () 函数 是 在 已 经 绘制 好 的 图 上 加 上 点 (字母 、 符 号 )。 而 tet O 函数 则 是 在 选 定 的 位 
置 上 加 入 说 明文 字 。points () 的 使 用 格式 如 下 所 示 。 
points ( x, y = NULL, type = "p" ,...) 


U xy: 


绘图 点 的 坐标 位 置 ， 也 可 以 用 含 两 个 数值 的 向 量 n 表示 n 个 坐标 点 。 
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O type : 使 用 字母 表示 绘图 的 样式 ， 默 认 是 用 “p” 代 表 点 。 
也 可 以 使 用 其 他 的 绘图 参数 ， 例 如 ,“pch” "col", *bg", "cex" A "Iwd", E., 

实例 ch19_22.R : 将 “1” 至 “25” 所 对 应 的 符号 及 颜色 以 4 倍 于 正常 大 小 的 点 绘制 在 5x5 的 格 
点 上 。 我 们 使 用 了 plot O 与 grid O 两 个 绘图 函数 先 将 图 形 的 格 点 与 线 标 绘 出 来 ， 再 以 for 循环 中 
的 try O 函数 将 25 个 点 依 序 绘制 在 5 x 5 的 格 点 上 。try O 是 用 来 包装 运行 表达 式 的， 如 果 遇 到 了 
失败 或 错误 ， 可 以 允许 使 用 者 修改 代码 来 处 理 错误 以 修复 函数 。 在 此 我 们 也 使 用 了 %% 取 余 数 的 
计算 与 %/% 整数 除法 的 计算 ， 以 利于 我 们 将 坐标 点 正确 定位 在 5 x 5 的 矩阵 格 点 上 。 程 序 实例 及 
绘图 结果 如 下 所 示 。 





1 # 
2 # 实例 ch19_22.R 

3 s 

4 ch19.22 <- function ( ) 
5-t 

6 * 


fi UN TS BER B RN IDA PS SER. ; 两 轴 的 样式 "i”(Cinternal) 
7 # 是 查找 原始 数据 范围 内 适合 最 佳 标签 与 坐标 轴 。 
8 plot(c(0,6), c(0,6), type = "n", xlab = "", ylab = "", 
9 Xaxs = "i", yaxs = "i") 
10  # 绽 出 6*6 367 I8 AR tè 
11  grid(6, 6, lty = 1) 
12 title("plot 25 points from 1 to 25") 
13 # 在 相对 位 置 上 放 以 25 种 符号 与 颜色 ; 文字 放大 4 人 以 
14 for(i in 0:24) tryCpoints(1+i%%5, 1+i%/%5, 


15 pch = i«1,col-i«1,cex-4)) 
16 } 
[ 执行 结果 ] 
plot 25 points from 1to 25 
o 





Y 


+ 
5 





ote o 
pug» 








0 1 2 


text O 函数 与 points O 函数 绘制 方法 是 一 致 的 ， 只 是 在 所 指定 的 坐标 位 置 上 书写 说 明文 字 而 
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非 单一 字母 或 符号 ， 它 的 使 用 格式 和 各 参数 意义 如 下 所 示 。 
text ( x, y = NULL, labels = seq along ( x ) ,adj = NULL, pos = NULL, 
offset = 0.5, vfont = NULL, L, font = NULL, ... ) 
xy : 绘图 点 的 坐标 位 置 ， 也 可 以 用 含 两 个 数值 的 向 量 n 表示 n 个 坐标 点 。 
labels : 说 明文 字 ， 也 可 以 配合 前 面 x, y 向量， 添加 多 个 说 明文 字 。 
adj : 数值 在 [0, 1] 之 间 ， 表 达 说 明文 字 的 对 齐 方式 。 
pos : 说 明文 字 的 位 置 ， 可 以 为 1、2、3 2X 4, 分别 表 示 向 下 、 向 左 、 向 上 与 向 右 对 齐 。 使 用 
pos 将 会 使 adj 参数 失效 。 

O offset: 当 pos 被 指定 时 ， 此 值 给 出 了 说 明文 字 距 离 指 定 坐 标 有 一 个 字符 宽度 的 偏 移 量 。 

口 vfont : 默认 为 NULL 表示 使 用 当前 的 字体 系列 ， 或 若 为 长 度 为 2 的 字符 向 量 ， 则 使 用 Hershey 
矢量 字体 ; 向 量 的 第 一 个 元 素 选择 一 个 字体 ， 第 二 个 元 素 选 择 样式 。 如 果 标 签 是 一 个 表达 式 
则 将 忽略 。 
另外 ， 如 col, cex 等 参数 都 可 以 使 用 ， 它 们 的 定义 已 经 在 前 面 说 明 过 了 。 

实例 ch19_23 : 使 用 MASS 套件 的 crabs 数据 框 先 绘制 FL 与 CL 两 个 变量 的 散 点 图 ， 然 后 使 用 
points () 与 text O 低级 绘图 函数 将 FL 变量 的 最 大 值 与 最 小 值 两 点 标示 出 来 。 在 此 我 们 使 用 了 
which.max () $j which.min O 两 个 函数 ， 它 们 能 够 将 我 们 所 需要 的 最 大 值 与 最 小 值 的 索引 值 (index ) 
找 出 来 ， 以 便于 定位 出 该 点 的 x 与 y 坐标 来 标示 该 点 ， 之 后 代入 as.charecter () 函数 将 此 数值 转换 成 为 
字符 以 供 text O 函数 的 参数 (label ) 使 用 。 同 时 为 了 能 将 标签 文字 与 该 标示 的 点 能 够 有 距离 区 隔 ， 我 
们 特别 使 用 text O 函数 内 的 ofset 参数 ,或 者 自行 在 x 坐标 上 进行 位 置 偏 移 的 调整 。 


0 0 D O 


# 绘 制 FL 最 大 值 的 点 ， 在 该 点 写 下 说 明文 字 
pointsCFL[FLmax.id],CL[FLmax.id],col=2,cex=2) 
text(FL [FLmax. id] -oset,CL[FLmax.id],col-2, 

14 label-as.character(FLmax. id) ,adj-0.5) 

15 # 绘 制 FL 最 小 值 的 点 ， 在 该 点 写 下 说 明文 字 

16 points(FL[FLmin.id],CL[FLmin.id],col-2,cex-2) 
17 text(FL[FLmin.id],CL[FLmin.id],col-2, 


1 # 

2 # 实例 ch19_23.R 

3 # 

4 chl9_23 <- function Ç ) 

5- t 

6 attach(crabs) # 使 用 crabs 数 据 框 

Z FLmax.id <- which.max(FL) # 找 出 FL 最 大 值 的 位 置 
8 FLmin.id <- which.minCFL) # 找 出 FL 最 小 值 的 位 置 
9 oset <- 3 LL 

10 plot(FL,CL) # 绘 制 FL VS CL 的 散 点 图 

11 

12 

13 


18 label-as.character(FLmin.id),pos-2,offset--oset) 
19 text(min(FL)«oset max(CL)-oset ,LabetL=" 标 示 出 最 大 及 最 小 的 FL 点 ") 
20 } 
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[执行 结果 ] 
1500 8 
S -标示 出 最 大 及 最 小 的 FL 点 Ee 
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19-3-2 lines O. arrows () 与 segments O FX 


lines (), arrows () 与 segments () 都 很 相似 ， 通 常 需要 提供 两 个 点 的 坐标 (x0, y0, x1, yl )， 例 
如 segment () 及 arrows () 两 函数 。 而 lines () 函数 需要 提供 的 是 两 个 长 度 为 2 的 向 量 作为 线段 的 
起 点 与 终点 。 但 是 arrows () 函数 还 需要 再 提供 箭头 的 角度 与 长 度 。arrows O 函数 的 使 用 格式 如 下 
所 示 。 
arrows ( x0, y0, x1 = x0, y1 = y0, length = 0.25, angle = 30, code = 2, col = par ( “fg” ) , 
lty = par ( “lty” ) , lwd = par ( "Iwd" ) , ...) 
O x0, y0 : 起 点 坐标 。 
O xl, yl : 终点 坐标 。 
口 length : 箭头 边缘 线 的 长 度 以 英寸 为 单位 。 
口 angle : 从 箭头 的 轴 到 边缘 的 箭头 头 部 的 角度 。 
O code : 1 代表 箭头 在 (x0, y0 )，2 代表 箭头 在 (xL y1), 3 代表 两 端 都 有 箭头 。 
“col”“lty”“lwd” 等 参数 也 都 可 以 使 用 。 
segments () 与 lines () 的 使 用 格式 ， 两 者 使 用 的 参数 与 arows () 均 差不多 。 但 是 segments () 给 
予 的 两 点 坐标 是 4 个 数值 参数 ， 但 是 lines O 是 以 两 个 长 度 为 2 的 向 量 所 提供 ， 所 以 lines O 所 提 
供 两 点 坐标 的 方式 与 arrows () 与 segments O 是 不 同 的 ，segments () 与 lines () 的 使 用 格式 如 下 
所 示 。 
0 





lines ( x, y, col = par ( "fg" ) , lty = par ( “lty” ) , lwd = par ( "Iwd" ) ,……) 
两 者 所 使 用 的 参数 也 与 arrows. O 对 应 相同 ， 因 此 我 们 不 在 此 更 述 。 
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实例 ch19_24.R : lines ()、arrows () 与 segments () 函数 的 应 用 。 


k pa kè pa pd j a 
GURUNE Soonouawne 


mn 社 社 入 


实例 ch19_24.R 
h19.24 <- function Ç ) 


# 绘 出 六 个 不 显示 的 点 不 加 入 两 轴 标 题 ; 两 轴 的 样式 "i" (internal) 

# 是 查找 原始 数据 范围 内 适合 最 佳 标 签 与 坐标 轴 。 

plot(c(0,6), c(0,6), type = "n", xlab = "", ylab = "", 
xaxs = "i", yaxs = "i") 

# 绘 出 6*6 36 个 格 点 及 线 

grid(6, 6, lty = 1) 

# 以 Lines 函 数 绘制 两 条 线 

linesCc(1,5),c(2,2),col=4, lwd=4) 

linesCcC1,5),cC4,4),col=5, lwd=5) 

ft A segments E f $$ HA A eR 

segments(1,2,1,4,col-3,1wd-3) 





17 Ssegments(5,2,5,4,col=2, lwd=2) 
18 # 以 向 量 提供 x，y 两 个 长 度 为 4 的 向 量 
19 x<-c(2,2,4,4); y <- c(1,5,1,5) 
20 S <- seq(length(x) -1) 
21 # 绘 制 三 段 箭头 
22 arrows(x[1],y[1],x[2],y[2],col=1, 
23 lwd-2, angle-30,code-1) 
24 — arrows(x[2],y[2] ,x[3], y[3], col-2, 
25 lwd-4, angle-60,code-2) 
26 arrows(x[3] ,y[3],x(4] ,y[4] , col=3, 
27 lwd-6, angle-90,code-3) 
28 title("ff Hlines, segments 5arrows Nn 三 函数 来 综 制 线段 ") 
29 } 
[执行 结果 ] 
使 用 lines, segments 与 arrows 
三 函数 来 绘制 线段 
wD 
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19-3-3 ploygon O 函数 绘制 多 边 形 


polygon () 函数 可 以 将 指定 的 一 组 坐标 点 绘制 成 为 一 个 封闭 的 多 边 形 ， 也 可 以 让 我 们 来 制作 
H. polygon O 的 使 用 格式 与 参数 意义 如 下 所 示 。 
polygon (x, y = NULL, density = NULL, angle = 45, border = NULL, col = NA, 
lty = par ( "Ity" ) , fillOddEven = FALSE ) 
口 x、y : 一 组 数值 向 量 ， 指 定 多 边 形 的 各 个 顶点 的 坐标 。 
O density : 每 英寸 阴影 中 的 行 数 ( 密度 )。 默 认 值 为 NULL， 意 味 着 没有 底 纹 线条 ， 零 值 意味 着 
没有 阴影 ， 而 负 值 和 NA 抑制 底 纹 C 因此 允许 颜色 填充 )。 
O angle : 阴影 线条 的 逆 时 针 角 度 。 
O col : 多 边 形 的 颜色 填充 。 默 认 是 NA， 不 做 多 边 形 的 填充 ， 除 非 指 定 了 density 参数 。 如 果 
density 参数 被 设置 为 正 值 ， 则 提供 底 纹 线条 的 颜色 。 
O border : 边框 的 颜色 。 默 认 情 况 下 是 NULL， 意 味 着 要 使 用 par (“fg”) WA “border= NA" , 
则 表示 省 略 边框 。 设 置 兼 容 性 边框 也 可 以 使 用 逻辑 值 ， 在 这 种 情况 下 FALSE 相当 于 NA (省 
略 的 边框 )，TRUE 相当 于 NULL C 使 用 前 景 颜色 )。 
O filloddEven : 逻辑 值 ， 控 制 多 边 形 阴 影 的 模式 。 
59b, A "hy". “xpd”, "lend", ”join” 和 “lmitre” 均 可 以 作为 参数 使 用 。 
接 下 来 我 们 以 两 个 实例 来 呈现 polygon O 绘制 多 边 形 的 应 用 。 要 绘制 正六 边 形 或 者 是 正 五 边 
形 可 以 在 单位 圆 上 找 出 其 顶点 ， 同 时 我 们 也 可 以 利用 它们 的 对 称 性 ， 使 点 的 计算 可 以 得 到 简化 。 
正弦 函数 sin O 与 余弦 函数 cos O 都 是 使 用 弧度 (Radian) 的 。 一 个 完整 的 圆 的 弧度 是 2w ， 所 
以 2m rad 2 360? , 1 m rad=180° , 1° =m/180rad, 1rad 2 180? /a ( 约 57.29577951° )。 以 
度数 表示 的 角度 ， 把 数字 乘 以 5/180 便 转 换 成 弧度 ; 以 弧度 表示 的 角度 ， 乘 以 180/ a 便 转 换 成 度 
数 。 正 六 边 形 的 6 个 顶点 可 以 用 2 天/6 得 到 。 同 理 ， 正 五 边 形 的 5 个 顶点 可 以 用 2r/5 得 到 。 在 绘 
制 正 六 边 形 时 我 们 仅 绘制 其 边框 ， 因 此 选择 density=0 ; 在 绘制 正 五 角 星 形 时 我 们 选择 每 次 跳 过 隔 
壁 点 的 方式 ， 因 此 选择 填 满 内 部 的 时 候 ， 选 择 默认 的 NULL 可 以 使 5 个 角 的 颜色 被 填 满 。 
实例 ch19_25 : 绘制 一 个 正六 边 形 的 应 用 。 


1 * 

2 # 实例 ch19_25.R 

3 € 

4 ch19 25 <- function ( ) 

5- i 

6 # 综 出 2 个 不 显示 的 点 不 加 入 两 轴 标 题 ; 两 轴 的 形式 为 "i” 

7 # 定 义 两 坐标 轴 数 据 的 范围 * 

8 plot(c(-1,-1), c(1,1), type = "n", xlab = "", ylab = "", 

9 Xaxs = "i", yaxs = "i",xlim-c(-1.2,1.2),ylim-c(-1.2,1.2)) 
10 co30-sqrt(3)/2; # 计 算 cos(30E) 25 sin(30&)- 1/2 


CHAPTER 19 再 谈 R 的 绘图 功能 


11 # 定 义 出 正六 边 形 的 6 个 点 的 x 与 y 坐 标 

12 X«-c(co30, 0, -co30, -co30, 4, co30) 
13 y«-c(0.5 , 1, 0.5, -0.5, -1, -0.5) 
14 polygon(x,y,col-2 ,density-0) 

15 titte( "绘制 一 个 正六 边 形 "7 











16 } 
[执行 结果 ] 
绘制 一 个 正六 边 形 
2d 
T T T T T 
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实例 ch19 26.R : 绘制 一 个 正 五 角 星 形 的 应 用 。 


实例 ch19_26.R 


h19.26 <- function Ç ) 


4 


r^ Q 3X 3t o3X* 


# 绘 出 2 个 不 显示 的 点 不 加 入 两 轴 标 题 ; 两 轴 的 样式 为 "i" 
# 设 置 两 坐标 轴 数 据 的 范围 。 
plotCcC-1,-1), c(1,D), type = "n", xlab = "", ylab = "", 
xaxs = "i", yaxs = "i",xlim-c(-1.2,1.2),ylim-c(-1.2,1.2)) 
## 定 义 出 正 五 边 形 的 5 个 点 的 x 与 y 坐 标 
x1-cos(4*pi/5);yl-sin(4*pi/5);x2-cos(2*pi/5); y2-sin(2*pi/5) 
x«-c(cos(0), x1, x2, x2, x1) #2 HEN mE HR ak i EA 
y«-cCsin(0), y1, -y2, y2, -y1) #2 HEEL JR B3 fc P BE E BS SE A 
Wtpolygon(x,y,cole2,density-0) # 如 此 仅 绘制 五 角 星 形 的 五 条 线 
polygon(x,y,col-4,density-NULL) # 可 以 绘制 内 部 五 角形 与 五 个 角 
titleC" 绘 制 一 个 正 五 角 星 形 ") 
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绘制 一 个 正 五 角 星 形 
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上 图 是 笔者 在 Windows 操作 系统 中 的 执行 结果 , 但 在 Mac OS 系统 执行 同样 程序 笔者 获得 了 下 图 
所 示 的 结果 。 


1.0 


0.5 








-1.0 -0.5 0.0 


-1.0 -0.5 0.0 0.5 1.0 





上 图 中 的 小 空白 框 是 因为 Mae OS 系统 绘图 设备 仍 不 支持 RStudio 的 中 文 所 造成 的 ， 但 在 绘图 
本 身 ， 却 有 一 个 正 五 角形 内 部 实心 的 不 同 结果 ， 所 以 使 用 上 要 人 小心。 
实例 ch19_27 : 自行 建立 阴影 的 函数 可 以 让 我 们 快速 绘制 正 态 分 布 的 阴影 ， 也 就 是 正 态 分 布 概率 
的 图 形 表 达 。 

本 函数 将 起 始点 x0、 终 止 点 xn 与 过 程 需要 的 点 数 np 设 为 提供 参数 ， 并 设 定 其 默认 值 。 通 过 
dnorm () 函数 我 们 可 以 在 -3.5 ~ 3.5 之 间 使 用 curve O 函数 绘制 出 正 态 分 布 的 概率 密度 函数 的 曲 
线 ， 也 能 够 计算 出 各 个 过 程 点 的 概率 密度 值 。 最 后 再 绘制 一 条 水 平 参考 线 ， 并 使 用 polygon () 多 


边 形 绘图 函数 设置 阴影 density=500 ( 每 英寸 500 条 密度 


绘图 的 功能 。 
1 # 
2 # 实例 ch19_27.R 
3 s 
4  ch19 27 <- function (x0--3, xn-3, np-100 ) 
5-1 
6 ## 给 出 标准 正 态 分 布 的 概率 函数 、 超 点 、 终 点 
z ince(xn-x0)/np # i$ 点 数 计 算出 增 量 
8 mid.p-seq(x0, xn, by-inc) 
9 x.allpe c(x0, mid.p,xn) $$jnA x? RA AH 
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)、 垂 直 的 线 填 满 ， 








10 y.allp- cC 0, dnorm(mid.p), 0) # 多 加 华 标 ， 均 为 9 
11 curve(dnorm, -3.5,3. "e WIES 11-3. 
12 abline(h-0) # f 
13 polygon(x.allp,y. e density-500, angle-90) 
14 title(paste("iE $$ 4175. ££x0-",x0, "Nn. 与 xn=",xn," 间 的 面积 ")) 
159) 
[ 执行 结果 ] 
正 态 分 布 在 x0= -3 
与 xn= 3 间 的 面积 
x | 
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实际 代入 各 个 参数 ， 我 们 提供 以 下 4 种 情况 ， 并 绘 
序 及 结果 如 下 所 示 。 


> res.par «-par(no.readonly-TRUE) # 保 留 par 
> HU 
> par(mfrowzc(2,2), ma 

> ch19 270 # 所 有 参数 均 为 默 
> 

> 

> 

> 


ch19_27(x0=-2.5,np: 
par(res.par) # 人 恢复 原始 的 pal 












绘制 4 个 图 ， 可 以 上 
c(0.3,0,0.4,0.1)) 
认 值 










会 制 在 一 张 图 内 ， 


便于 相互 之 


间作 比较 。 程 


就 能 够 顺利 实现 此 面积 
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[执行 结果 ] 

正 态 分 布 在 x0= -3 正 态 分 布 在 x0= -2 

与 xn= 3 间 的 面积 与 xn= 2 问 的 面积 

正 态 分 布 在 x0= -3 正 态 分 布 在 x0= -2.5 

与 xn= 13 问 的 面积 与 xn= 3 问 的 面积 

A 
3 2 1 0 1 3 3 1 0 1 3 

19-3-4 abline () 直线 、legend () 图 例 、title () 抬头 与 axis () 


Hi, 


u 
口 


tite () 函数 主要 是 用 来 标示 抬头 与 副标题 文字 的 ， 抬 头 也 就 是 主 标题 ， 默 认 是 放 在 图 形 的 上 
而 副标题 (下 标题 ) 则 是 置 于 图 形 的 下 端 。title O 的 使 用 格式 和 各 参数 的 意义 如 下 所 示 
title ( main = NULL, sub = NULL, xlab = NULL, ylab = NULL, 

line = NA, outer = FALSE, ... ) 
main : 主 标题 位 置 在 顶部 ; 字体 和 大 小 可 使 用 par (“font.main”) 来 设置 ; 颜色 的 设置 使 用 
E TER 
sub : 副标题 位 置 在 底部 ; 字体 和 大 小 可 使 用 par ( "font.sub" ) 来 设置 ; 颜色 的 设置 使 用 par 
( "col.sub" ). 
xlab, ylab : X 5j Y Af ilibs ZE ; 字体 和 大 小 可 使 用 par C "fontlab" ) 来 设置 ; 颜色 的 设置 使 
JH par ( "coLlab" ). 
line : 数值 k， 指 定 行 的 值 ， 将 重 置 默认 的 标签 位 置 ， 并 将 它们 放 在 绘图 区 k 行 的 边缘 外 。 
outer : 一 个 逻辑 值 。 如 果 为 TRUE， 则 主 标题 将 被 放 在 绘图 区 的 外 侧 页 边 距 。 
axis () 则 是 在 图 形 上 另外 加 上 坐标 轴 ， 让 读者 能 够 清楚 掌握 图 形 的 位 置 。 它 的 使 用 格式 和 各 





参数 的 意义 如 下 所 示 。 


axis ( side, at = NULL, labels = TRUE, tick = TRUE, line = NA, pos = NA, 
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outer = FALSE, font = NA, lty = “solid” , lwd = 1, lwd.ticks = lwd, 
col NULL, col.ticks = NULL, hadj = NA, padj = NA, ...) 
O side: 一 个 整数 值 ， 指 定 在 哪 一 侧 绘制 坐标 轴 。! 表示 在 下 端 ; 2 表示 在 左 侧 ; 3 表示 在 上 
端 ; 4 表示 在 右 侧 。 
D at: 在 要 绘制 刻度 线 的 位 置 标记 点 。infinite，NaN 或 NA 等 值 被 名 略 。 默 认 情况 下 为 NULL， 
表示 计算 刻度 线 位 置 。 
O labels : 这 可 以 是 一 个 逻辑 值 TRUE， 指 定 是 否 应 在 刻度 线 标示 数值 标签 或 是 字符 或 字符 串 标 
签 ; 若是 FALSE 则 不 在 刻度 线 标示 任何 标签。 
O tick : 一 个 逻辑 值 ， 指 定 是 否 应 绘制 刻度 线 和 轴线 。 
O line : 数值 ， 表 示 将 绘制 轴线 在 边缘 的 k 行 处 。 
O pos: JË NA 值 ， 表 示 要 绘制 轴线 的 坐标 。 
O outer : 逻辑 值 ， 该 值 指示 是 否 应 将 轴线 绘制 在 边界 外 ， 而 不 是 标准 的 位 置 。 
口 font : 文本 的 字体 与 大 小 。 
O hy : 轴线 和 刻度 线 的 样式 。 
O lwd, lwd.ticks : 为 坐标 轴线 和 刻度 线 的 线 宽 。 零 或 负 值 将 不 绘制 轴线 或 刻度 线 。 
O col, colticks : 轴线 和 刻度 线 的 颜色 。 
口 hadj : 将 所 有 标签 调整 为 与 阅读 方向 平行 。 
口 padj : 将 每 个 刻度 线 标 签 都 调整 为 垂直 于 阅读 方向 。 对 于 标签 平行 于 轴 的 情况 ，padj = 0 意味 
着 向 右 或 向 上 对 齐 ; padj = 1 为 向 左 或 向 下 对 齐 。 可 以 给 定单 一 值 向 量 ， 重 复 使 用 。 
实例 ch19_28 : 下 面 我 们 先 以 plot O 函数 绘制 简单 的 4 个 点 ， 但 不 加 上 坐标 轴 ， 接 着 在 图 形 的 右 
侧 、 上 侧 加 上 特定 的 标签 。 再 接着 使 用 pos 参数 分 别 在 特定 位 置 的 下 方 及 左 侧 绘制 选 定 颜色 的 坐 
标 轴 。 


实例 ch19_28.R 


* 
# 
# 
ch19_28 <- function ( ) 
ut 
plot(1:4,axes=FALSE)# 仅 绘图 不 标示 轴线 
# 在 图 的 右 侧 加 上 中 文 标签 
axis(4,at=1:4,1labels=c("—"," 二 "," 三 "," 四 ")) 
# 在 图 的 上 侧 加 上 英文 标签 
axis(3,0t-1:4, 
labels-c("one", "two", "three", "four")) 
# 在 (2,1) 的 位 置 的 下 侧 绘 制 给 定 颜 色 的 水 平 坐标 轴 
axis(1,pos-c(2,1),col-2,col.ticks-3) 
31€(1.5,1) 88 (s 85 Zc (£e 1 6 ze LOS D 3E Aen f 
axis(2,pos-c(1.5,1),col-4,col.ticks-5) 
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[执行 结果 ] 








我 们 之 前 已 经 多 次 使 用 tite O 函数 ， 在 此 就 不 多 作 说 明了 。abline O 函数 也 是 低级 绘图 函数 
的 一 种 ， 主 要 是 用 来 绘制 水 平 线 ， 垂 直线 ， 或 者 是 斜 线 ， 笔 者 在 第 18 5089 18-2-2-5 节 已 作 过 介 
绍 ， 它 的 使 用 格式 参数 意义 如 下 所 示 。 
abline (a = NULL, b = NULL, h = NULL, v = NULL, reg = NULL, 
coef = NULL, untf = FALSE, ... ) 
O a,b: a 为 直线 的 截 距 ，b 为 直线 的 斜率 。 
O untf : 为 一 个 逻辑 值 。 如 果 是 TRUE 且 有 一 个 或 两 个 轴 是 经 过 对 数 转 换 的 ， 则 会 对 应 于 原始 坐 
标 系统 绘制 曲线 ; 若 为 FALSE 则 仅 以 转换 后 的 坐标 系统 绘制 曲线 。 
O h: 指定 水 平 线 的 位 置 ; h=2 代表 绘制 y=2 的 水 平 线 。 
v : 指定 垂直 线 的 位 置 ; v=2 代表 绘制 x=2 的 垂直 线 。 
O coef: 长 度 为 2 的 向 量 ， 指 定 截 距 与 斜率 。 
O reg: 指定 回归 线 对 象 的 截 距 与 斜率 。 
abline () 函数 共有 四 种 方式 可 以 绘制 直线 : 第 一 种 方式 是 明确 指定 a 为 截 距 b 为 斜率 ; 第 二 
种 方式 是 指定 bh 或 v, 绘制 水 平 或 者 垂直 线条 于 指定 坐标 处 ; 第 三 种 方式 ，coef 给 予 一 个 系数 2 的 
向 量 表 达 截 距 和 和 斜率 ; 第 四 种 方式 是 以 reg 提供 回归 系数 方法 ， 若 仅 提供 长 度 为 1 的 向 量 ， 则 采 
用 通过 原点 直线 的 斜率 ， 通 常 是 提供 长 度 为 2 的 向 量 表达 回归 线 的 截 距 与 斜率 。 
实例 ch19_29 : 下 面 的 实例 我 们 使 用 library ( MASS ) 与 attach (crabs) 两 个 函数 后 ， 利 用 crabs 
数据 框 的 两 个 变量 FL 与 CL 来 绘制 出 散 点 图 ， 分 别 在 CL 的 最 大 值 、 最 小 值 与 平均 数 处 绘制 水 平 
线 ， 并 在 FL 的 平均 数 处 绘制 1 条 垂直 线 。 并 利用 R 内 建 的 Im O 回归 模型 函数 求 出 结果 ， 再 以 模 
型 的 截 距 与 斜率 来 绘制 1 条 回归 线 ， 最 后 再 标示 抬头 和 在 适当 的 位 置 利用 paste () 函数 写 下 得 到 
的 回归 方程 。 
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> library(MASS) # 加 载 MASS 套 件 
> attach(crabs) # 使 用 crabs 数 据 框 
The following object is masked _by_ .GlobalEnv: 

index 


The following objects are masked from crabs (pos = 3): 


BD, CL, OW, FL, index, RW, sex, sp 


v 


plot(FL,CL) TÉRBIFL VS CLAMAR 


> plot(FL,CL) # 给 制 FL VS CLAMAR 
> # 在 CL 最 大 值 、 最 小 值 的 点 与 平均 数 处 ， 分 别 绽 制 水 平 线 
> abline(h-CL[which.max(FL)], col-2) 
> abline(heCL[which.min(FL)], col-2) 
> abline(h-mean(CL), col-2) # 在 CL 平 均 数 处 
> abline(vemean(FL) , col 23, lwd=3) # 在 FL 平均 数 处 FHR 
> lml <- ImCCL~FL, data-crabs) # 回 归 模 型 结果 
> coef«-round(lmi$coef,2);coef # 回 归 模 型 的 系数 结果 呈现 
(Intercept) FL 
1.04 1.99 
> abline(lm1,col=4) # 使 用 回归 系数 ( 堆 距 与 斜率 7 绘 图 
> title("abline") 
> # 在 适当 的 位 置 写 下 回归 结果 方程 式 
> text(mean(FL),mean(CL)«-5,col-6, cex=1.5, 


+ label-paste("ys",coef[1], "*", coef[2], "x")) 
> 


[执行 结果 ] 


abline example 








CL 
15 20 25 30 35 40 45 














FL 


legend () 函数 是 在 已 绘制 的 图 内 加 入 一 块 图 例 说 明 区 ， 这 一 块 说 明 区 也 可 以 想象 成 一 个 内 部 
完整 的 小 图 。 所 以 可 以 使 用 到 前 面 所 提 到 的 诸多 绘图 参数 。legend O 的 使 用 格式 和 各 参数 意义 如 
下 所 示 。 

legend ( x, y = NULL, legend, fill = NULL, col = par ( “col” ) , 

border = "black" , lty, lwd, pch, angle = 45, density = NULL, 
bty= "o" , bg 7 par ( “bg” ) , box.Iwd = par ( “lwd” ) , 
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box.lty = par ( “lty” ) , box.col = par ( "fg" ) ,ptbg = NA, cex = 1, 
pt.cex = cex, pt.lwd = lwd, xjust = 0, yjust = 1, x.intersp = 1, 
yintersp = 1, adj = c (0, 0.5 ) , text. width = NULL, text.col = 
par ( "col" ) ,textfont = NULL, merge = do.lines && has.pch, 
trace = FALSE,plot = TRUE, ncol = 1, horiz = FALSE, title = NULL, 
inset = O,xpd, title.col = text.col, title.adj = 0.5,seg.len = 2) 
O x, y: 图 例 左 上 角 的 参考 坐标 。 
O legend : 说 明 的 字符 串 向 量 ， 后 面 的 col、lty、lwd、pch 则 是 对 应 设置 此 说 明 字 符 串 的 颜色 、 
线 的 样式 、 线 宽度 与 文字 或 符号 。 
D fil: 图 例 区 内 填充 色 。 
O border : 图 例 区 边框 的 颜色 ， 只 有 在 fl 参数 被 设置 后 才 有 用 。 
O density : 正 整数 表示 阴影 线条 的 密度 ; NULL、 负 值 或 NA 表示 是 填 满 颜色 。angle 则 表示 阴影 
线条 的 角度 。 
口 bty : 图 例 区 边框 的 样式 ; box.lty 图 例 区 边框 线条 的 样式 ; box.lwd 表示 图 例 区 边框 线条 的 宽 
度 ; box.col 表示 图 例 区 边框 线条 的 颜色 。 
口 bg : 图 例 区 内 的 背景 颜色 。 
O pLbg : 图 例 内 点 的 背景 颜色 ; pt.cex 为 图 例 内 点 的 缩放 比例 ; ptlwd 为 图 例 内 点 的 线 宽度 。 
口 cex : 图 例 说 明文 字 的 缩放 比例 。 
口 xjust , yjust : 水 平 或 垂直 方向 的 对 齐 方式 ; 值 为 0 表示 左 对 齐 ，0.5 表示 居中 ，1 表示 右 对 
JF ; x.intersp, y.intersp 为 说 明文 字 水 平 或 垂直 方向 的 间隔 。 
O adj: 为 数值 向 量 ， 长 度 可 以 为 1 或 2。 若 长 度 为 1 代表 图 例 说 明文 字 水 平方 向 对 齐 ; 若 长 度 
为 2， 则 代表 除了 水 平方 向 调整 外 ， 垂 直方 向 也 要 求 对 齐 ， 主 要 是 在 以 数学 表达 式 作 说 明文 
字 时 使 用 。 
口 text.width : 图 例文 字 的 宽度 ; text.col 为 图 例文 字 的 颜色 ; textfont 为 图 例文 字 的 字体 。 
O merge : 为 逻辑 值 ， 默 认 是 TRUE 会 同时 呈现 点 与 线 合并 的 说 明 。 
O trace: 为 逻辑 值 ， 默 认 是 FALSE ; 若 改 为 TRUE， 则 代表 将 绘制 图 例 的 计算 过 程 的 数值 打印 
出 来 ， 以 供 参考 。 
O plot : 为 逻辑 值 ， 默 认 是 TRUE ， 表 示 绘 制图 例 ; 着 改 为 FALSE， 则 不 绘制 出 图 例 ， 而 将 图 例 
的 主要 参数 回 ， 以 供 后 续 参 考 使 用 。 
O ncol : 图 例 说 明 使 用 的 列 数 ， 默 认 是 1 且 是 逐 行 一 一 列举 。 
O horiz : 为 一 个 逻辑 值 ， 若 为 TRUE 则 说 明 是 逐 列 一 一 列举 ， 此 设置 会 使 ncol 失去 作用 。 
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Q tite: 在 图 例 区 的 上 方 提供 抬头 。title-col 为 抬头 的 颜色 。title.adj 为 抬头 的 对 齐 方式 ; title.cex 
为 图 例 抬头 文字 的 缩放 比例 。 

O inset : 插入 的 图 例 距 边界 的 距离 。 

口 xpd : 提供 图 例 剪 贴 方式 的 参数 。 

O seglen : 图 例 说 明 线段 的 长 度 。 
我 们 已 经 在 实例 ch19_12 以 及 实例 ch19_16 中 使 用 legend ()， 在 此 就 不 再 以 实例 说 明了 。 


交互 式 绘图 


当 我 们 绘制 了 散 点 图 后 想 要 选取 某 些 图 形 上 的 特定 点 或 对 这 些 点 加 上 特别 的 标示 时 ，R 提供 
了 两 个 很 好 的 交互 式 绘图 函数 ，locator () 与 identify ()。locator () 函数 会 传递 回 选取 的 特定 点 的 
坐标 ， 而 identify O 函数 则 会 传 回 这 些 特定 点 的 索引 数值 。 在 互动 执行 时 也 可 以 按 下 鼠标 右键 暂 
我 们 首先 来 介绍 locator O 函数 。 当 首要 的 鼠标 按键 (第 一 个 ， 通常 就 是 左 键 ) 被 按 下 时 ， 
将 读 取 并 传 回 图 形 中 光标 的 位 置 。locator O 的 使 用 格式 与 各 参数 意义 如 下 所 示 。 
locator (n = 512, type = "n" ,...) 
Q n: 限制 最 多 选取 的 点 数 ， 默 认 是 512 个 。 
O type: 可 供 选 择 的 有 “n”、“p”、“1” 或 “o"。 选 择 “p” 或 “o” 会 再 绘制 点 ; 如 果 选 择 “1” 
或 “o” 则 会 加 入 线 。 
identify () 函数 不 是 返回 图 形 上 的 坐标 值 而 是 返回 该 点 的 索引 值 ， 以 利于 后 续 进一步 的 使 用 。 
identify () 的 使 用 格式 与 各 参数 意义 如 下 所 示 。 
identify ( x, y = NULL, labels = seq_along (x) , pos = FALSE, n = length (x) , 
plot = TRUE, atpen = FALSE, ofket = 0.5, tolerance = 0.25, ... ) 
D x y: 散 点 图 中 点 的 坐标 。 另 外 ,任何 定 义 坐标 的 对 象 ， 例 如 ， 散 点 图 、 时 间 序 列 图 等 均 可 以 
A x, yo 
O labels : 给 出 选取 点 标签 为 一 组 任意 向 量 。 它 们 会 被 as.character () 强制 转换 为 字符 串 ， 标 签 
的 过 长 部 分 将 被 丢弃 并 发 出 警告 。 
O pos: 如 果 pos 为 TRUE， 则 将 组 件 添加 到 返回 的 值 ， 该 值 指 定 绘制 标签 的 位 置 相对 于 每 个 确 
定 的 点 的 距离 。 
口 n : 最 多 选取 的 点 数 。 
口 plot : 是 1 个 逻辑 值 。 如 果 是 TRUE， 则 选取 在 附近 点 打印 标签 ; 如 果 为 FALSE， 则 标签 将 会 
被 省 略 。 
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口 atpen : 是 1 个 逻辑 值 。 如 果 为 TRUE H plor = TRUE， 则 左下 角 的 标签 将 会 绘制 在 鼠标 单 击 的 
位 置 而 不 是 之 前 指定 的 位 置 。 
O offset: 从 标签 至 选取 点 的 距离 ， 以 字符 宽度 为 单位 。 人 允许 使 用 负 值 。 但 是 当 “atpen = 
TRUE” 时 将 无 法 使 用 。 
口 tolerance : 光标 足够 接近 选取 点 的 最 大 距离 ， 以 英寸 为 单位 。 
实例 ch19_30 : 我 们 在 图 上 绘制 8 个 点 ， 其 中 第 4 个 与 第 8 个 点 较 与 其 他 点 不 相 一 致 ， 因 此 我 们 


可 以 使 用 locator () 函数 ， 选 用 n=2， 并 使 用 鼠标 单 击 上 述 两 点 即 可 探知 此 两 点 的 大 约 坐标 。 接 下 
来 我 们 再 以 identify O 函数 选取 特定 3 点 的 指标 值 。 














LÀ 

#ch19_30 

" 

> # 定 义 一 组 8 个 点 的 x 与 y 坐 标 值 

> X«- C(1:3,8,4:6,2); y <- 1:8 

> plot(x,y,xlimec(0,9),ylimsc(0,9)) 48^ z38 RU [E] 
> title("locatoriÉ JS Ri" ,col.mainz"blue") 

> # 在 图 形 上 以 "X" 标 示 选 定 的 ?个 特定 点 并 查看 该 点 的 坐标 值 


> locator (n=2, type="p",pch="X",col=2) 


vvv 





$x 
[1] 1.982382 8.015792 


sy 
[1] 8.005970 3.961465 


> # 使 用 identify 找 出 3 个 特定 点 排序 后 的 指标 值 

> title(sub="identify 医 数 的 应 用 ", co1. sub="red") 

> &s.p <- identify(x,y,n=3,1abel=y, offset-1) 

> s.p <- identify(x,y,n-3,labelzy, offset-1,plot-TRUE, atpen-TRUE) 
» . 

[ 














s.p 
11248 
[执行 结果 ] 
locator 函 数 的 应 用 
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o 
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实例 ch19_31 : 延续 上 述 实例 ,我 们 可 以 将 identify O 函数 所 选取 的 3 个 点 ， 用 前 面 所 提 过 的 
text () 函数 将 它们 标示 在 图 形 上 。 


> # 使 用 text 函 数 去 标示 所 选取 的 3 点 坐标 

> text(x[s.p[1]],y[s.p[1]],pos=4,0ffset=0.5,col=6, 
+ label-paste("C",x[s.p[1]1]," , ",y[s.p[1]],")")) 
> textCx[s.p[2]],y[s.p[2]],pos=2,offset=0.5,col=6, 
+ label-paste("C",x[s.p[21]," , ",y[s.p[2]],")")) 
> text(x[s.p[3]],y[s.p[3]],pos=4,0ffset=0.5,col=6, 
+ label-paste("C",x[s.p[31]," ,",y[s.p[3]],")")) 
> 








[执行 结果 ] 
locator 函 数 的 应 用 
oo x(8,8) 
o 
e o 
o 
> 4 
v (8.4)X 
o 
2 
e 9(2.2) 
o 
o 
T T- T 
0 2 4 6 8 
X 
identify 函 效 的 应 用 
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本 章 习题 


一 、 判 断 题 


) 5. 


) 6. 
FT: 


)8. 
)9. 


. R 语 言 内 建 了 许多 的 绘图 工具 函数 以 供 参考 使 用 ， 我 们 可 以 先 使 用 demo (graphics ) 


或 者 demo (image ) 两 个 命令 来 参考 R 所 提供 的 绘图 示范 。 

低级 绘图 ( Low-level Plotting Functions ) 是 在 一 个 已 经 绘制 好 的 图 形 上 加 上 其 他 的 图 
形 元 素 ， 例 如 加 上 说 明文 字 、 直 线 或 点 ， 等 等 。 

低级 绘图 ( Low-level Plotting Functions ) 是 用 在 建立 一 个 新 的 图 形 ， 常 用 的 各 种 统计 
绘图 ， 基 本 上 都 是 属于 低级 绘图 。 

交互 式 绘图 ( Interactive Graphics Functions ) : 允许 使 用 者 以 互动 的 方式 使 用 其 他 的 
设备 ， 例 如 鼠标 ， 在 一 个 已 经 存在 的 图 形 上 加 入 绘图 相关 信息 ， 例 如 ，points () 以 及 
text () 两 函数 都 是 属于 交互 式 绘图 函数 。 

我 们 可 以 使 用 dev.new O 函数 来 新 建 一 个 绘图 设备 ; 而 使 用 dev.off (x ) 来 关闭 指定 
的 绘图 设备 。 

我 们 可 以 使 用 graphics.off O 来 关闭 某 一 个 指定 的 绘图 设备 。 

mfrow 参数 不 需要 通过 par O 来 设置 ， 是 可 以 作为 高 级 或 者 低级 绘图 函数 中 的 参数 来 
设置 使 用 。 

我 们 可 以 使 用 square. O 低级 绘图 函数 来 绘制 四 边 形 。 

abline () 低级 绘图 函数 可 以 用 来 绘制 水 平 或 者 垂直 线 于 指定 坐标 处 。 


) 10. curve () 以 及 coplot O 两 函数 均 是 属于 高 级 绘图 函数 。 


二 、 单 选 题 
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. 以 下 哪个 函数 可 以 用 来 关闭 某 一 个 指定 的 绘图 设备 ? 


A. dev.quit () B. dev.down () 

C. graphics.off () D. dev.off () 

以 下 哪个 函数 是 属于 交互 式 绘图 (Interactive Graphics Functions ) 函数 ? 
A. identify () B. text () 

C. plot O D. pairs () 

以 下 哪个 函数 是 属于 低级 绘图 ( Low-level Plotting Functions ) 函数 ? 

A. identify () B. text () 

C. plot () D. pairs () 


( 
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以 下 哪个 函数 不 属于 高 级 绘图 ( High-level Plotting Functions ) 函数 ? 


A. identify () B. hist O 
C. plot () D. pairs () 
以 下 哪个 函数 不 是 R 绘制 3D 图 形 的 函数 ? 
A. persp () B. contour () 
C. image () D. 3Dplot () 
将 低级 绘图 函数 arrow O 的 参数 code 设置 为 以 下 哪个 值 时 ， 可 以 在 两 个 端点 都 绘制 
箭头 ? 
A.1 B. 2 €.3 D.4 
. 低级 绘图 函数 polygon O 使 用 以 下 哪个 参数 来 设置 每 英寸 内 阴影 的 线条 数 ? 
A. density B. lty C. col D. lines 
以 下 哪个 函数 可 以 用 来 产生 Normal Distribution 的 随机 数 ? 
A. dnorm () B. pnrom () 
C. qnorm () D. morm () 


在 R 中 , 那个 函数 可 以 绘制 以 下 的 箱 形 图 ? 











e o 
Par 
N , 
一 —— | 
-| 一 ES 
n i 
es =i 
p o 
P o 
x y 
A. hist () B. plot () C. lines () D. boxplot () 


) 10. 以 下 哪 组 R 命令 会 生成 以 下 图 形 ? 
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C. 


wne 


awn 


wne 


wne 

















x=1:10 B 1 x-1:10 
y-c(2,7,3,5,9,8,7,6,1,7) - ERN y-c(2,7,3,5,9.8,7.6,1.D 
plot(x, y) 3 plot(x, y) 
Tine(1:10) 4 line(x, y) 
x-1:10 D 1 x-1:10 
y-cQ2,7,3,5,9,8,7,6,1,7) * 2 y-cQ2,7,3,5,9,8,7,6,1,7) 
plot(x, y) 3 plot(x, y) 
Tine(m(y~x)) 4 ablineClm(y-~x)) 
C ) 11. 以 下 哪 组 R 命令 会 生成 以 下 图 形 ? 
o 
o- o 
EI wer 8 
o- EI 
- t i 
* i 
9 i 
"do 
o 
T T T T 
2 6 8 10 
x 
x-1:10 B 1 x-1:10 
yzc(2,7,3,5,9,8,7,6,1,7) * 2 y-c(2,7,3,5,9,8,7,6,1,7) 
plot(x, y) 3 plot(x, y) 
grid(nx-4,ny-4, col = "red" 4 lines(nx=4,ny=4, col = "red") 
x-1:10 D. 1 x=1:10 
yzc(2,7,3,5,9,8,7,6,1,7) * 2 y-c(2,7,3,5,9,8,7,6,1,7) 
plot(x, y) 3 plot(x, y) 
points(nx-4,ny-4, col - "red") 4 grids(nx-4,ny-4, col = "red" 
C ) 12. 以 下 哪 组 R 命令 会 生成 以 下 图 形 ? 
boxplot 





ylab 
































( 


D. 


1 
2 
3 


1 
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boxplot(y) 
title(main-"boxplot",xlab-"xlab",ylab-"ylab") 


boxplot(y) 
title(main-"boxplot",x lab-"xlab",y lab-"ylab' 
points (mean(y) , col-"red") 


boxplot(y) 
title(main-"boxplot",xlab-"xlab",ylab-"ylab") 
points (mean(y) , col-"red") 


boxplot(y) 
title(main-"boxplot",x lab-"xlab",y lab-"ylab' 


) 13. 以 下 R 命令 执行 后 的 最 后 结果 为 何 ? 


»- 


1 boxplot(y) 
2 title(main-"boxplot",x lab-"xlab",y lab-"ylab") 
3 points(mean(y) ,col-"red") 










































































boxplot 
m B. z T 
«| 1 
E D. 出 现 warning 信息 
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( 2 14. 欲 将 箱 型 图 图 形 文件 输出 成 PDF 格式 的 R 命令 为 以 下 哪 组 ? 


A. pdf ( “e:/aaa.pdf” ) B. boxplot ( x ) 
boxplot ( x ) pdf ( "ez/aaa.pdf" ) 
dev.off () dev.off () 

C. plot (x) D. box ( x) 
pdf ( "ezaaa.pdf" ) pdf ( "ez/aaa.pdf" ) 
dev.off () dev.off () 


( 2 15. 生成 以 下 图 形 的 R 命令 可 能 为 以 下 哪 组 ? 














2 4 H s M 
A. plot ( x) B. plot ( x ) 
texts (2, 5, "test text" ) point ( 2, 5, "test text" ) 
C. text (2, 5, "test text" ) D. plot (x) 
plot (x) text (2, 5, "test text" ) 


( 2 16. 生成 以 下 图 形 的 R 命令 可 能 为 以 下 哪 组 ? 














A. plot (x, pch 2 4) B. plot ( x, col 2 4) 


( 


) 17. 8 


) 18. 


C. plot ( x, cel 2 4) 





A. plot ( x ) 


lines ( x, lty = 10) 


C. plot (x) 


CHAPTER 19 再 谈 R 的 绘图 功能 


D. plot ( x, lab 2 4) 


E 成 以 下 图 形 的 R 命令 可 能 为 以 下 哪 组 ? 














B. plot ( x) 
points ( x, lwd = 10) 
D. plot ( x) 


lines ( x, lwd = 10) 
以 下 R 命令 的 执行 结果 为 以 下 哪个 选择 ? 
> X <- 1:10 


> plot(x) 
> lines(x, lwd=10) 


























A. e B. =j 
C —— D. =] 
| | -| 
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( 2) 19. 以 下 的 绘图 结果 是 由 哪 一 组 命令 所 获得 的 ? 





A. > par(fig-c(0.5, 1, 0, 0.5)) 
> plot (1:2,main="Result") 


B. > plot (1:2,main="Result") 


C. > par(mai-(0.5, 1, 0, 0.5)) 
> plot(1:2,main-"Result") 


D. > par (mfrow=c (1,2)) 
> plot(1:2,main-"Result") 


( ) 20. 如 果 我 们 要 以 下 列 R 程序 产生 如 下 绘图 布局 ， 和 矩阵 x 应 该 事先 被 定义 为 以 下 哪个 ? 


> nf <- layout(x,widths-c(1,1) ， 
+ heights= c(1,1),respect = TRUE) 
> layout.show (nf) 








A. > x <- matrix(c(1, 1, 0, 2), 2, 2,byrow-IRUE) 
B. > x <- matrix(c(1, 1, 2, 2), 2, 2,byrow-TRUE) 
C. > x <- matrix(c(1, 0, 2, 0), 2, 2,byrow-TRUE) 


D. > x <- matrix(c(i, 2, 1, 2), 2, 2,byrow-TRUE) 
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) 21. 如 果 我 们 要 使 用 plot O 函数 产生 如 下 了 轴 经 过 log O 函数 转换 的 图 形 ， 则 正确 的 R 
命令 会 是 以 下 哪 一 个 ? 


log transformation ofy 


e 
3 
S 
B 
e 
8 
o 


exp(1:10) 








A. > plot (x=1:10, y=exp (1:10) ,log="y", 
* main-"log transformation of y") 


B. > plot(x-1:10,y-exp(1:10),10g-"x", 
* main-"log transformation of y") 


C. > plot(x-1:10,y-exp(1:10), 
* main-"log transformation of y") 


D. > pilot(x-1:10,y-exp(1:10), ylog-TRUE, 
+ main-"log transformation of y") 


三 、 多 选 题 

) 1， 以 下 哪些 函数 是 R 绘制 3D 图 形 的 函数 ? (选择 3 项 ) 
A. persp O B. contour () 
C. image () D. hist () 
E. curve () 

)2. 以 下 abline () 低级 绘图 函数 的 哪些 参数 设置 是 正确 的 ? (选择 3 项 ) 
A. coefzc ( 1,2) B. a-3, b-2 
C. hz4 D. slope=3, intercept-2 
E. s=2, i-3 

) 3.， 以 下 哪些 是 属于 低级 绘图 函数 ? (选择 3 项 ) 
A. abline () B. legend () 
C.axis () D. curve () 
E. persp () 
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C 24. 以 下 哪些 是 属于 高 级 绘图 函数 ? (选择 4 项 ) 


A. barplot () B. legend () 
C. coplot () D. curve () 
E. persp () 

( ”) 5.， 以 下 哪些 是 属于 低级 绘图 函数 ? (选择 3 项 ) 
A. segment () B. title () 
C. points () D. image () 


E. contour () 


(  ) 6， 以 下 哪些 R 命令 有 误 ? (选择 3 项 ) 


A. text ( 2,5, "test text" ) B. plot (x) 

plot (x) lines (x, lty = 10) 
C. plot (x) D. plot (x) 

texts (2, 5, “test text” ) line (2,5, "test text” ) 
E. plot (x) 


text (2, 5,” test text" ) 


C 77. 以 下 哪些 R 命令 有 误 ? (选择 3 项 ) 


A. doc ( "e:/aaa.doc" ) B. bmp ( "ezaaa.bmp" ) 
boxplot ( x ) boxplot ( x ) 
dev.off () dev.off () 
C. pdf ( "ezaaa.pdf" ) D. box (x) 
boxplot ( x ) 
dev.off () 


E. bmp ( "e/aaa.bmp" ) 
boxplots ( x ) 


dev.off () 
( 28. 以 下 哪些 R 命令 的 执行 结果 相同 ? (选择 2 项 ) 
A. plot (x, pch=2) B. plot (x, type= “n” ) 
points ( x, pch=2) 
C. points ( x, pch 2 2) D. plot ( x,type= “n” ) 


point ( x, pch=2 ) 
E. plot ( x, typez 2) 
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R 语言 一 一 迈 向 大 数据 之 路 


本 书 笔者 将 分 别 介绍 在 Windows 和 Mac OS 下 安装 R 语言 。 


下 载 R 语言 


首先 请 进入 下 列 网 站 ， 下 载 R。 


www.r-project.org 








eoo R: The R Project for Statistical Computing 


The R Project for Statistical 
Computing 


Getting Started 

R is a free software environment for statistical computing and graphics. It compiles 
and runs on a wide variety of UNIX platforms, Windows and MacOS. To download 
R, please choose your preferred CRAN mirror. 


If you have questions about R like how to download and install the software, or what 
the license terms are, please read our answers to frequently asked questions before. 
you send an email. 


News 

* R version 3.2.1 (World-Famous Astronaut) has been released on 2015-06-18. 
* R version 3.1.3 (Smooth Sidewalk) has been released on 2015-03-09. 

* The R Journal Volume 6/2 is available. 


* useR! 2015, will take place at the University of Aalborg, Denmark, June 30 - July 
3,2015. 

* useR! 2014, took place at the University of California, Los Angeles, USA June 30 
- July 3, 2014. 





在 上 图 中 可 以 看 到 CRAN mirror FP., CRAN 的 全 名 是 Comprehensive R Archive Network 
在 这 里 你 可 以 看 到 R 的 可 执行 文件 ， 源 代码 以 及 许多 说 明文 件 ， 同 时 这 里 也 收录 了 许多 开发 者 编 
写 的 软件 套件 。 由 于 R 语言 已 是 全 球 最 热门 的 免费 软件 ， 如 果 只 有 一 处 可 下 载 ， 必 造成 “塞车 ” 
与 全 球 使 用 者 的 不 便 ， 因 此 ， 就 有 了 CRAN 镜像 (mirror) 网 站 的 产生 ， 目 前 全 球 有 超过 100 个 
CRAN 镜像 (mirror ) 网 站 ， 你 可 以 选择 离 自己 最 近 的 CRAN 镜像 (mirror) 网 站 下 载 R 软件 。 
不 论 是 单 击 download R 字符 串 或 CRAN mirror 皆 可 看 到 如 下 页 面 。 
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Q cran.r-project.org /mirrors htm! [3 








http;/fip.cixug.es/CRAN/ Oficina de software libre (CIXUG) 
hup:/cran.es 1-projectLorg/ Spanish National Research Network, Madrid 
Sweden 
hitp;/fip.acc.umu.se/mirror/CRAN/ Academic Computer Club, Umeå University 
Switzerland 
http;/statethz ch/CRAN/ ETH Zuerich 
Taiwan 
http:/ftp.yzu.edu.tw/CRAN/ Department of Computer Science and Engineering, Yuan Ze University 
 http;/cran.csie.ntu edu tw/ National Taiwan University, Taipei 
Thailand 
 http;/mirrors,psu.ac.th/pub/cran/ Prince of Songkla University, Hatyai 
 http;/cran.pau.edu.tr/ Pamukkale University, Denizli 
UK 
http//www stats.bris.ac.uk/R/ University of Bristol 
http://mirrors .ebi.ac .uk/CRAN/ EMBL-EBI (European Bioinformatics Institute) 
http://mirrors-uk2.go-parts.conycran/ Go-Parts 
htp;//cran.ma imperial ac ukw Imperial College London 
http;//mirror.mdx.ac.uk/R/ Middlesex University London 
 http/star-www.st-andrews.ac.uk/cran/ St Andrews University 
USA 
http;/cran.cnr.Berkeley edu/ University of California, Berkeley, CA 





在 本 节 中 ,笔者 想 联机 进入 台湾 大 学 的 R 镜像 点 ， 如 下 图 所 示 。 


eoe The Comprehensive R Archive Network Ca 


La AEEA crancsie.nuedu w cssallol 





The Comprehensive R Archive Network 








[Download and Install R 


binary distributions of the base system and contributed packages, Windows and Mac 
most likely want one of these versions of R: 


ÍR is part of many Linux distributions, you should check with your Linux package management 

system in addition to the link above. 

[Source Code for all Platforms 

Windows and Mac users most likely want to download the precompiled binaries listed in the upper. 

, not the source code. The sources have to be compiled before you can use them. If you do not 
what this means, you probably do not want to do it! 


© The latest release (2015-06-18, World-Famous Astronaut) R-3.2.1 tar.gz, read what's new in 
the latest version. 


* Sources of R alpha and beta releases (daily snapshots, created only in time periods before a 
planned release). 


. Taty ea of conce pilaa sil devicrcent Voce o atahis iaa: Pane ciet 
about new features and bug fixes before filing corresponding feature requests or bug reports. 


* Source code of older versions of R is available here. 
© Contributed extension packages 
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在 上 图 中 ， 你 可 以 根据 自己 的 计算 机 系统 选择 适当 的 R 版 本 ， 即 可 下 载 R 语言 了 。 


EN 下载 Rstudio 


RStudio 是 R 的 整合 窗口 环境 ， 如 果 你 想 要 使 用 这 个 窗口 整合 环境 启用 R， 可 以 到 下 列 网 页 。 





@ www.rstudio.com 





Products Resources Pricing About Us Blog 


Welcome 
and ente 
software for R 


Download RStudio Discover Shiny 





Powerful IDE for R R Packages BringR to the web 


在 本 节 中 ， 笔 者 单 击 “Download RStudio”， 然 后 你 可 以 选择 适合 计算 机 操作 系统 的 版 本 ， 即 
可 下 载 和 安装 RStudio。 


使 用 R 的 补充 说 明 
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EX] 获得 系统 内 建 的 数据 集 


R 软件 本 身 就 已 经 提供 给 我 们 丰富 的 数据 资源 ， 也 就 是 它 内 建 的 数据 集 ， 其 中 大 约 包含 了 近 
百 个 数据 集 。 例 如 在 第 9 章 我 们 就 使 用 过 内 建 数 据 集 state.name。 我 们 可 以 使 用 data. O 函数 得 到 
系统 内 建 数 据 集 的 名 称 及 内 容 概述 。 


> data(package-"datasets") 





ts in package ‘datasets’: 





gers Monthly Airline Passenger Wombers 1949-1960 


s 
BJsales.lead (BJsales) 
BoD 











co2 Carbon Dioxide Uptake in Grass Plants 
ChickWeight Weight versus age of chicks on different diets 
DNase 
EuStockMarkets 

Indices, 1991-1998 
Formaldehyde Determination of Formaldehyde 
HairByeColor Hair and Eye Color of Statistics Students 
Harman23.cor Harman Example 2.3 
Harman74.cor Harman Example 7.4 
Indometh Pharmacokinetics of Indomethacin 
InsectSprays Effectiveness of Insect Sprays 
JohnsonJohnson Quarterly Earnings per Johnson & Johnson Share 
LakeHuron Level of Lake Huron 1875-1972 
LifeCycleSavings Intercountry Life-Cycle Savings Data 











除了 上 述 的 内 建 数据 集 外 ，R 中 还 有 其 他 可 以 使 用 的 套件 所 附带 的 数据 集 。 可 以 使 用 data O 
函数 来 获得 所 有 R 数据 集 的 列表 。 


> data(package = .packages(all.available = TRUE)) # 查 看 所 有 可 用 的 数据 集 
Warning messages: 
1: In data(package = .packages(all.available = TRUE)) : 

datasets have been moved from package 'base' to package 'datasets' 
2: In data(package = .packages(all.available = TRUE)) : 

datasets have been moved from package 'stats' to package 'datasets"' 


下 列 是 执行 结果 





LÖR data sets x 
pola 
Data sets in package 'boot': 








acme Monthly Excess Returns 

aids Delay in AIDS Reporting in England and 

aircondit s of Air-conditioning Equipment 

aircondit? Failures of Air-conditioning Equipment 

amis Car Speeding and Warning Signs 

aml Remission Times for Acute Myelogenous 
Leukaemia 

beaver Beaver Body Temperature Data 

bigcity Population of U.S. Cities 

brambles Spatial Location of Bramble Canes 

breslow Smoking Deaths Among Doctors 

calcium Calcium Upt. Data 

cane Sugar-cane Disease Data 

capability Simulated Manufacturing Process Data 

catsM Weight Data for Domestic Cats 

cav Position of Muscle Caveolae 

cd CD4 Counts for HIV-Positive Patients 





一 口 














APPENDIX B 使 用 R 的 补充 说 明 


GBA 看 到 陌生 的 函数 


在 使 用 R 语言 看 别人 所 写 的 程序 时 ， 如 果 碰 上 陌生 的 函数 ， 一 律 可 用 下 列 方 式 寻求 帮助 。 
help ( 函数 名 称 ) 

或 

? 函数 名 称 

例如 ， 可 以 使 用 以 下 命令 查询 Ltext ()。 


> help("t.test") 
> ?t.test 
> 


可 立刻 在 RStudio 窗口 右 下 方 的 窗口 看 到 函数 功能 的 解说 ， 特 别 是 几乎 每 个 函数 的 参数 都 有 


非常 详细 的 功能 解说 


Files Plots Packages Help Viewer 一 站 
e Bale 


R: Student's t-Test ~ 


p 


t.test {stats} R Documentation 


Student's t-Test 


Description 

Performs one and two sample t-tests on vectors of data. 

Usage 

t.test(x, ...) 

## Default S3 method: 

t.test(x, y = NULL, 
alternative = c("two.sided", "less", "greater"), 
mu = 0, paired = FALSE, var.equal = FALSE, 
conf.level = 0.95, ...) 


## S3 method for class 'formula' 
t.test(formula, data, subset, na.action, ...) 


LEE] 看 到 陌生 的 对 象 


1) 


当 你 看 到 陌生 的 对 象 时 ， 基 本 上 有 以 下 几 个 方法 了 解 它 。 
和 了 解 陌生 函数 一 样 使 用 help O 函数 ， 例 如， 下 列 是 用 help O 函数 了 解 对 象 Titanic 的 实例 。 











> help(Titanic) 
- 
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可 以 得 到 下 列 解 说 。 
Files Plots Packages Help Viewer =0 
e9 28a Q 


R: Survival of passengers on the Titanic ~ 


Titanic (datasets) R Documentation 


Survival of passengers on the Titanic 


Description 

This data set provides information on the fate of passengers on the fatal maiden 
voyage of the ocean liner ‘Titanic’, summarized according to economic status (class), 
sex, age and survival. 

Usage 

Titanic 


Format 


A 4-dimensional array resulting from cross-tabulating 2201 observations on 4 variables. 
The variables and their levels are as follows: 





„No Name . Levels. 
2) 直接 输入 它 的 名 称 ， 若 担心 数据 量 太 大 ， 可 以 增加 head. O 函数 只 列 出 前 6 个 数据 辅助 了 解 
对 象 。 以 下 是 以 Titanic 为 例 作 演示 。 


> Titanic 
，，Age = Child, Survived = No 


Sex 
Class Male Female 
ist e e 
2nd e e 
3rd 35 17 
Crew e e 


» » Age = Adult, Survived = No 


Sex 
Class Male Female 
ist 118 4 


2nd 154 13 
3rd 387 89 
Crew 670 3 


» , Age = Child, Survived = Yes 


Sex 
Class Male Female 
1st 5 1 
2nd 11 13 
3rd 13 14 
Crew e e 
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» » Age = Adult, Survived = Yes 


Sex 
Class Male Female 
1st 57 140 
2nd 14 80 
3rd 75 76 
Crew 192 20 


3) ”输入 str O 函数 了 解 对 象 的 结构 。 以 下 是 以 Titanic 为 例 作 演示 。 


> str(Titanic) 

table [1:4, 1:2, 1:2, 1:2] 0 0 35 0 0 017 9 118 154 ... 
- attr(*, "dimnames")-List of 4 
..$ Class  : chr [1:4] "ist" "2nd" "3rd" "Crew" 


..$ Sex : chr [1:2] "Male" "Female" 
..$ Age : chr [1:2] "Child" "Adult" 
..$ Survived: chr [1:2] "No" "Yes" 

> 


4) 输入 class O 函数 了 解 对 象 的 类 别 。 以 下 是 以 Titanic 为 例 演示 。 
> class(Titanic) 


[1] "table" 
> 


EX in CRAN 


CRAN 是 Comprehensive R Archive Network 的 缩写 ， 网 址 如 下 所 示 。 

http:/cran.r-project.org 

这 是 遍布 全 球 的 服务 器 ， 每 个 服务 器 其 实 只 是 一 个 镜像 ( Mirror )， 你 可 以 依 自己 的 所 在 位 
置 ， 寻 找 最 近 的 镜像 网 站 下 载 相关 资料 ,在 这 里 我 们 可 以 找到 R 的 下 载 区 ，R 的 原始 代码 ，R 
手册 和 扩展 包 。 


LX 搜索 扩展 包 


R 系统 有 几 千 种 扩展 包 ， 要 想 整个 浏览 不 容易 ， 但 有 一 些 热心 的 专家 已 将 一 些 常用 的 扩展 包 
整理 ， 并 建立 了 一 个 列表 ， 称 CRAN Task Views ,我们 可 以 在 以 下 网 址 中 找到 ,页面 如 下 图 所 示 。 


http://cran.r—project.org/web/views 
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CRAN Task Views 
Q mps cran.r-project.org /web/views/ 





CRAN Task Views 


Design of Experiments (DoE) & Analysis of Experimental Data 

Empirical Finance 

Statistical Genetics 

Graphic Displays & Dynamic Graphics & Graphic Devices & Visualization 
ng High-Performance and Parallel Computing with R 

Machine Leaming & Statistical Learning. 

Medical Image Analysis 

Meta-Analysis 

Multivariate Statistics 

Natural Language Processing 





上 述 网 页 中 列 出 了 各 类 主题 的 扩展 包 ， 你 可 以 单 击 进入 了 解 更 多 信息 。 


E 安装 与 加 载 扩展 包 


如 果 在 上 图 所 示 的 页 面 中 往 下 滚动 窗口 , 则 可 以 看 到 安装 与 加 载 扩 展 包 的 方式 , 如 下 图 所 示 。 














Handling and Analyzing Spatio-Temporal Data 
Survival Survival Analysis 
TimeSeries Time Series Analysis 
WebTechnologies Web Technologies and Services 
gR gRaphical Models in R 


To automatically install these views, the ctv package needs to be installed, e.g., via 

install.packages("ctv") 

library("ctv") 

and then the views can be installed via install.views Or update.views (which first assesses which of the packages are already installed and 
up-to-date), e.g., 

install.views("Econometrics") 

or 
update.views("Econometrics") 
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APPENDIX B 使 用 R 的 补充 说 明 


安装 与 加 载 扩展 包 方式 在 前 面 各 章 中 已 作 说 明 ， 在 此 笔者 再 度 重复 说 明 。 下 载 并 安装 扩展 包 
可 使 用 install.packages () 函数 。 例 如 ， 如 果 想 下 载 安装 “lattice” 可 以 使 用 如 下 代码 。 
install.packages ( "lattice" ) 
扩展 包 安装 完成 后 ， 可 以 使 用 library () 或 require () 函数 加 载 到 R 系统 ， 这 两 个 函数 调用 的 
返回 结果 如 下 所 示 。 
O library O : 如 果 成 功 ， 则 不 返回 信息 。 如 果 失 败 ， 则 返回 FALSE。 
O require O : 如 果 成 功 ， 则 返回 TRUE。 如 果 失 败 ， 则 返回 FALSE. 
R 文件 推荐 使 用 library O 函数 。 例 如 想 加 载 “lattice” 可 以 使 用 如 下 代码 。 
library (lattice ) 


阅读 扩展 包 的 内 容 


有 两 个 方法 可 以 阅读 扩展 包 的 辅助 说 明 ， 下 列 以 扩展 包 lattice 为 例 ， 说 明 如 何 阅 读 扩展 包 的 
方法 1 : 输入 下 列 命令 。 


> library(help="lattice") 
> 


可 以 得 到 下 列 结果 。 





|Ì Documentation for package ‘lattice’ x ec 
a 


Information on package 'lattice' 


Description: 
Package: lattice 
Version: 0.20-31 
Date: 2015/03/30 
Priority: recommended 
Title: Lattice Graphics 
Author: Deepayan Sarkar 
<deepayan .sarkarer-project .org> 
Maintainer: Deepayan Sarkar 
*deepayan.sarkarür-project.org» 
Description: Lattice is a powerful and elegant 


high-level data visualization system, with 
an emphasis on multivariate data, that is 
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方法 2 : 进入 下 图 所 示 的 页 面 。 








(8 hips &. cran.r-project.org/web/ n: x.htm c mam 


lattice: Trellis Graphics for R 


A eren a ogai hiyl iral dat tori jamn kpk by Ticis ie with an emphasis on multivariate data. Lattice is 


sufficient for typical graphics needs, and is also flexible enough to most nonstandard requirements. See 7Lattice for an introduction. 
Version: 020-33 

Priority: recommended 

Depends: R(&322) 

Imports: grid, grDevices, graphics, stats, utils 

Suggests: KemSmooth, MASS 

Enhances: chron 

Published: 201507-14 

Author Deepayan Sarkar 

Maintainer: Decpayan Sarkar «decpayan sarkar at r-projectorg» 
BugRepors: /rforge -pri jects attic 

License: GPL-21 GPL-3 [expanded from: GPL (è 2)] 

URL: hup:/lattice r-forpe r-projectorp 
NeedsCompilation: yes 

Citation: 








单 击 上 图 中 Reference manual 字段 后 的 链接 ， 可 以 下 载 lattice.pdf 文件 。 


EX 更 新 扩展 包 


ER 为 了 确保 系统 的 扩展 包 是 最 新 内 容 ， 可 以 使 用 
update.packages () 函数 。 调 用 这 个 函数 后 ， 这 个 函数 将 连接 CRAN， 同 时 检测 你 的 系统 的 扩展 包 
是 否 有 更 新 版 本 ， dia 


EX 搜索 系统 目前 的 扩展 包 


可 以 使 用 search () 函数 了 解 目 前 系统 有 哪些 扩展 包 ， 如 下 所 示 。 


> search() 
[1] ".GlobalEnv" "package: lattice" 
[3] "package:MASS" "package: ggplot2" 


[5] "package: reshape2" "package: foreign" 
[7] "package:XLConnect" "package: XLConnectJars" 


[9] "tools:rstudio" "package: stats" 
[11] "package: graphics" "package: grDevices" 
[13] "package:utils" "package: datasets" 
[15] "package:methods" "Autoloads" 

[17] "package:base" 
> 


APPENDIX B 使 用 R 的 补充 说 明 


S082" HG 


如 果 想 要 件 载 扩展 包 可 以 使 用 detach O KS, FIERI JI lattice 的 实例 。 
> detach(package:lattice, unload = TRUE) 


在 上 述 代 码 中 如 果 省 略 参数 “unload = TRUE", R 只 是 将 扩展 包 latice 从 路 径 中 移 除 ， 并 不 
是 真正 印 载 ， 下 列 是 验证 结果 ， 看 看 lattice 是 否 还 在 路 径 中 。 





> search( ) 

[1] ".GlobalEnv" "package :MASS" 

[3] "package: ggplot2" "package: reshape2" 
[5] "package: foreign" "package: XLConnect" 
[7] "package:XLConnectJars" "tools:rstudio" 

[9] "package: stats" "package: graphics" 
[11] "package: grDevices" "package:utils" 
[13] "package:datasets" "package: methods" 
[15] "Autoloads" "package: base" 

> 


可 以 发 现 lattice 扩展 包 已 经 不 在 了 ， 表 示 被 卸载 了 。 


R-Forge 


尽管 是 开放 软件 ， 但 不 是 所 有 的 包 均 可 放 在 CRAN 上 的 ， 新 开发 的 包 还 是 需要 先 被 认可 ， 但 
在 被 认可 之 前 ，R-Forge 开发 和 管理 人 员 会 将 这 些 包 先 放 在 下 列 R-Forge 网 站 上 。 

http://r-forge.r-project.org/ 

如 果 想 安装 上 述 包 ， 例 如 ，myR， 可 以 用 下 列 方式 。 

install.packages ( “myR” ,repos= “http://R-Forge-R-project.org” ) 
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第 1 章 基本 概念 


一 、 判 断 题 

LV ZX 4X 4V 
二 、 单 选 题 

LC 2A 3.B 

三 、 多 选 题 

1. ABC 


一 、 判 断 题 

LX 2vV X AV 5v 
二 、 单 选 题 
下 
三 、 多 选 题 

1. BD 


第 3 章 RR 的 基本 算术 运算 


一 、 判 断 题 
LM AV AV AV -SEX 
10. V 


第 4 章 向 量 对 象 运算 


一 、 判 断 题 
LX LX 3.X 4v 5X 
10. X 1L V 12.X 13.X WY 


6.B 


6. V 


6.C 


6. X 


I: 


x 


7.X  8.X 
J.B 

TY 8V 
16.V 17.X 


9. V 


二 、 单 选 题 
LD 2C 3A 4B 5A &C 


10.B ILB 12A 13.A 14D 15.A 


三 、 多 选 题 
1. BC 2. ABD 


第 5 章 处 理 矩 阵 与 更 高 维 数据 
一 、 判 断 题 

Lx Xx Zy Av Sx 6X 
二 、 单 选 题 

LB 2B 3.4 4C 5B GA 
10.B ILA 12C 13D 14A 


三 、 多 选 题 
1. ACD 2. AD 


第 6 章 因子 Factor 


一 、 判 断 题 

LX AV 3.V 4X 

二 、 单 选 题 

LB 2A 3D 4C SB &B 
三 、 多 选 题 

1. ABD 


第 7 章 数据 框 Data Frame 


一 、 判 断 题 

IVO Ax 3y Ax 5V €X 
二 、 单 选 题 

LD 2D 3B 4B 5A &C 
三 、 多 选 题 

1. BCE 


3D BE 
16B 17.C 
TV 8V 
ED- &€ 
T- SG 
TM 

TË 


APPENDIX C 本 书 习题 答案 
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第 8 章 串 行 List 
一 、 判 断 题 
LV LV 3V 4V SX 6X LX 8V 


|! 
E 
w 
[5] 


LD 2D 3.C 4.A 5. D 6.D 7.C 8.B 
三 、 多 选 题 
1. AD 


第 9 章 进 阶 字符 串 的 处 理 


Le. 2D SA 4.B 5.C 6.B 7.C 8.B 


981195 编写 自己 的 函数 


一 、 判 断 题 

LV 2X 3V av 5X 6v T.V CY 
二 、 单 选 题 

LBE ZA 3D 4AB. 5A 6D 7B 


9. 


x 


10. V 


APPENDIX C 本 书 习 题 答案 


三 、 多 选 题 
1. BCD 


第 12 章 程序 的 流程 控制 


一 、 判 断 题 

LV 2X 3.V 4X SY 6X TV &X 

二 、 单 选 题 

LB 2B 3B 4C 5D 6B 7D &D 9B 
三 、 多 选 题 

1. ABC 


第 13 章 认识 apply 家 族 


一 、 判 断 题 

EV ma 3X 

二 、 单 选 题 

lA ZD 30 4D 5B 6À TBE SA 29D 
三 、 多 选 题 

1. AD 


第 14 章 输入 与 输出 


一 、 判 断 题 

ER EV ZIX AX SV EX 

二 、 单 选 题 

1.C 2A 3D 4D 5C 6A 7C &D 
三 、 多 选 题 

1. BC 2.€D 


第 15 章 数据 分 析 与 处 理 


一 、 判 断 题 
lLV 2X 3X AV SX 6v TX BW 9V 
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第 16 章 数据 汇总 与 简单 图 表 制 作 


一 、 判 断 题 


]l.Xx 
10. V 


2.X 


二 、 单 选 题 


D 


BD 


2.C 


、 多 选 题 


3. X 


3.C 


2.DE 


4.V 


4.B 


第 17 章 正 态 分 布 
一 、 判 断 题 


L.V 


1.A 


2.X 


单 选 题 


2.A 


三 、 多 选 题 
i 


ABC 


SW 


3.A 


2. ABC 


4.V 


4.B 


5.V/ 


S.A 


6v 


6.C 


6.D 


第 18 章 资料 分 析 一 一 统计 绘图 


一 、 判 断 题 
LY 30* O3 
10. V IL V 12. X 
二 、 单 选 题 
LE- ZA  3.D 
10.B iLE 


4. X 
13. V 


4.D 


5: 
14. V 


5.D 


6. V 


6.C 


7.35 


8.B 


三 、 多 选 题 
1. BC 2. ADE 


第 19 章 再 谈 R 的 绘图 功能 


一 、 判 断 题 
EV ZU EX EX SY CX TTX EX 
二 、 单 选 题 
LD 2A 3B 4A 5D 6C 7A SA 


10.D 11.A 12C 13D 14A 15.D 16A 17.C 


19.A 20.A 2LA 


三 、 多 选 题 


APPENDIX C 本 书 习 题 答案 


9.WV 10.V 


9.D 
18. A 


I. ABC 2.ABC 3.ABC 4.ACD 5.ABC 6.ACD 7.ADE 8.AB 
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abline () 385，440 
abs () 30 
acos () 32 
add : 421 
addmargins () 348 
adj : 381, 409 
aggregate () 307 
all O 66 
allx : 296 
ally : 297 
all : 296 
angle : 432, 434 
ann: 409 
any () 66 
append : 251 
apply O 234 
apropos () 198 
array () 97 
arrows () 432 
as.character () 110 
as.Date () 170, 173 
as.factor () 108 
as.numeric () 110 
as.POSIXet () 174 
as.POSIXIt () 175 
asin () 32 
asinh () 32 
ask : 408 
asp: 377 
atan () 32 
atan () 32 
atpen : +H 
axes : 427, 428 
axis () 438 
[gp 
barplot 0 368 
bg: 373, 408 
bmp O 405 





c0 

cat () 
cbind () 
ceiling () 
cex.axis : 
cex.lab : 
cex.main : 
cex.sub : 
cex : 

cin : 

class O 
clockwise : 
code : 

coef : 
col.axis : 
col.lab : 
col.main : 
col.names : 
col.sub : 
col : 
collapse : 
colMeans () 
colnames () 
color : 
colSums () 
complete.cases () 
contour () 
coplot () 
cor () 

cos () 


cosh () 


226, 


389, 


373, 390, 


57, 99, 


371, 409, 


88, 


426, 


427 
427 
338 
354 
428 
409 
172 

78 


cra : 

emt: 

esi : 
CST: 
CSV: 
CSV2 : 
cummax () 
cummin () 
cumprod () 
cumsum () 
curve () 
cut () 

exy : 


d: 
data.frame () 
data : 

deast O 

dee : 
decreasing : 
delim : 
density () 
det () 
detach () 
dev.cur () 
dev.list O : 
dev.new () 
dev.next () 
dev.off () 
dev.off ( which = dev.cur O) : 
dev.prev () 
dev.set () 


dev.set ( which = dev.next () ) : 


diag () 

diff () 
digits : 

dim () 
dimnames () 
dimnames : 
din : 

dir () 


78, 460 


334, 434 


311111111 


9 


Un 
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dotchart () 
drawlabels : 
drop : 
duplicated () 


函数 索引 表 


factor () 
factorial () 
family : 


file.create () 
file.exist () 
file.path O 
file.remove () 
file.rename () 
file.show O : 
fillOddEven : 
fin : 

fitted () 
floor O 
font.axis : 
font.lab : 
font.main : 
font.sub : 
font : 

for : 

foreign : 
frame.plot : 
freq : 
frequency : 
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from : 421 
fun.aggregate : 312 
function () 185 
[ESOS 
gcolor : 373 
gdata : 373 
getwd () 19, 248 
GMT : 174 
gpch : 373 
graphics.off () 404, 406 
grep O 160 
groups : 373 


h: 388 
hadj : 439 
head () 61 
header : 259 
height : 368 
heights 419 
help O 173, 461 
hist () 332 
histogram () 356 
horiz : 368 
= a 
id.vars : 310 
identical () 98, 290 
证 … else : 210 
if + else if + else if else : 213 
if: 208 
ifelse () 217 
image () 426, 428 
Inf : 53 
inset : 443 
install.packages () 320 


is.array () 80 
is.character () 55 


is.double () 55 
is.finite () 36 
is.infinite () 36 
is.integer () 55 
is.matrix () 80 
is.na () 39, 62, 299 
is.nan () 39 
is.numeric () 55 
BEST UE——ÉX3 
jpeg O 405 


lab : 412 
labcex : 428 
labels : 109, 371, 428 
lapply () 238 
las : 387, 412 
layout () 418 
lcolor : 373 
legend () 441 
legend.text : 368 
lend : 412 
length () 52, 80, 136 
length.out. 46, 172 
length : 432 
levels () 111 
levels : 108，428 
lheight : 412 
library ( 259, 320 
lines () 336, 385, 432 
list O 134 
list.files () 249 
ljoin : 412 
lm () 385 
Imitre : 412 
load () 20 
loadhistory () 22 
locator () 443 
log O 31 


log : 412 
lphi : 427 
ls 0 17 
ltheta : 427 
lty : 413 
lwd : 413 
ES 
mai 413 
main 332 
mar : 413 
MASS : 320 
mat : 418 
match () 297 
matrix () 78 
max () 50 
mean () 50, 324 
median () 325 
melt () 310 
merge () 293 
merge : 442 
method : 428 
mex : 413 
mfcol : 391, 414 
mfg : 414 
mfrow : 391, 414 
mgp : 414 
min () 50 
mkh : 414 
Mode : 325 
months () 171 
p N49 
n: 421 
na.omit () 288 
na.rm : 53 
na.strings : 254 
NA : 53 
names () 67, 121, 135 
nchar () 55 
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ncol () 79 
ncol : 78 
ncolumns : 256 
new: 414 
next : 227 
nlevels () 111 
nlevels : 428 
nlines : 254 
nmax : 253 
no.readyonly : 408 
nrow () 79，284 
nrow : 78 
nticks : 427 
NULL : 89 
number : 424 
numeric () 48 
pem 
offset : 431, 444 
oldstyle : 428 
oma : 415 
omd : 415 
omi : 415 
order O 301 
ordered () 112 
ordered : 112 
origin : 175 
outer () 426 
ES 
padj : 439 
page : 415 
pairs () 343 
panel 423 
391, 407 

155 

249 

373,375, 415 

405 

426 
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pie O 

pin: 

plot (O) 

plt: 

png () 

points () 
polygon () 
postscript () 
print () 
print.data.frame () 
print.default () 
print.list () 
prob.table () 


qqnorm () 
quantile () 
quarters 0 


quote : 


371, 409 


334, 376 


383, 431 


12, 185, 197 


4 


radius : 
range () 
range : 

rank O 
rbind () 
read.esv () 
read.csv2 () 
read.delim () 


read.spss () 
read.ssd () 
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81, 124, 293 








read.table () 
read.xport : 
readClipboard () 
readWorksheetFromFile () 
reg : 

rep O 

repeat : 

replace : 
require () 
reshapes2 : 
respect : 

return () 

rev () 

rm O 

round () 
row.names () 
rowMeans () 
rownames () 


rowSums () 


187, 


sample () 
sapply O 
save () 
save.image () 
savehistory () 
scale : 

scan () 

sd O 

search () 
seg.len : 
segments 0 
sep: 

seq () 
set.seed () 
setwd () 
shade : 
shapiro.test () 
show.given : 
signif () 

sin () 

sinh () 


52, 


46, 172, 175, 


skip : 
smo : 
solve () 
sort () 
source () 
space : 
sqrt () 
sit: 
start : 
str () 


stringsAsFactors : 


strsplit () 
sub O 

sub : 
subscripts : 
substr () 
sum () 
summary () 
switch () 
Sys.date () 
Sys.localeconv () 
Sys.time () 


51, 158, 


56, 79, 121, 


254 
415 


299 


186 


415 


177 


121 


161 


tO 

table () 
tail () 

tan () 
tanh () 
tapply () 
tek : 

tel; 

text 0 
ticktype : 
uf O 
times : 
title () 
to: 
tolerance : 
tolower () 
toupper 0 
trace : 


94, 
113, 293, 328, 


380, 


127 
345 
61 
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unclass () 176 
unique () 155 
unload : 467 
untf : 440 
update.packages () 466 
use : 343 
UseMethod () 197 
useRaster : 428 
usr : 416 
UTC : 174 


v: 385 
value.name : 310 
var () 52, 326 
variable.name : 310 
vfont : 431 
vfontif : 428 


weekdays () 170 
weights : 279 
what : 253 
which () 62, 112, 285 
which.max () 62, 331 
which.min () 62 
while : 224 
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write.foreign () 265 
write.table () 264 
writeClipboard () 263 
ERES 
xaxs 416 
xaxt 417 
xjust : 442 
xlab : 332 
XLConnect : 259 
xlim : 368 


